正如谷歌、三星和微软继续在 PC 和移动设备上推动生成式 AI 的努力一样,苹果也正在通过OpenELM加入这一行列,这是一个新的开源大语言模型 (LLM) 系列,可以完全在移动设备上本地运行,而不必连接到云服务器。
OpenELM简介
OpenELM于4月24日在 AI 代码社区 Hugging Face 上发布,它由旨在高效执行文本生成任务的小型模型组成。
总共有八个 OpenELM 模型,其中四个是预训练的,四个是指令调整的,涵盖了 2.7 亿到 30 亿个参数之间的不同参数大小(指的是LLM 中人工神经元之间的连接,参数越多通常意味着性能越好,并且参数越多)。能力,尽管并不总是)。
虽然预训练是让 LLM 生成连贯且可能有用的文本的方法,但它主要是一种预测练习,而指令调整是让它以更相关的输出响应用户的特定请求的方法——预训练训练可能会导致模型只是尝试用附加文本来完成提示,例如用文本“在家用烤箱中”响应用户的提示“教我如何烤面包”,而不是实际的分步说明,后者正如IBM 的这位有用的解释者所指出的那样,其中更多的内容可以通过指令调整来完成。
苹果在其“示例代码许可证”下提供其 OpenELM 模型的权重,以及训练中的不同检查点、模型性能的统计数据以及预训练、评估、指令调整和参数效率的说明微调。
示例代码许可证并不禁止商业使用或修改,只是要求“如果您完整且未经修改地重新分发Apple软件,则必须在Apple软件的所有此类重新分发中保留本通知以及以下文本和免责声明。”
苹果公司进一步指出,这些模型“在没有任何安全保证的情况下提供。因此,这些模型可能会根据用户提示产生不准确、有害、有偏见或令人反感的输出。”
了解 OpenELM
虽然 OpenELM 刚刚发布,尚未进行公开测试,但苹果在 HuggingFace 上的列表表明,它的目标是使用这些模型的设备上应用程序,就像竞争对手谷歌、三星和微软,后者本周刚刚发布了完全可以在智能手机上运行的Phi-3 Mini模型。
在开放获取期刊 arXiv.org 上发表的一篇描述该模型系列的论文中,Apple 表示 OpenELM 的开发“由 Sachin Mehta 领导,Mohammad Rastegari 和 Peter Zatloukal 也做出了额外的贡献”,该模型系列“旨在增强和增强能力。加强开放研究社区,促进未来的研究工作。”
Apple 的 OpenELM 模型涵盖四种规模——2.7 亿、4.5 亿、11 亿和 30 亿个参数,每个模型都比许多高性能模型要小(它们通常有大约 70 亿个参数)——并且每个模型都有一个预训练和指导版本。
这些模型在来自 Reddit、维基百科、arXiv.org 等的 1.8 万亿个代币的公共数据集上进行了预训练。
它们适合在商用笔记本电脑甚至某些智能手机上运行。苹果的论文指出,基准测试是在“配备 Intel i9-13900KF CPU、配备 64 GB DDR5-4000 DRAM 和配备 24 GB VRAM 的 NVIDIA RTX 4090 GPU、运行 Ubuntu 22.04 的工作站”上运行的,以及“Apple MacBook Pro,配备 M2 Max 片上系统和 64GiB RAM,运行 macOS 14.4.1。”
有趣的是,新系列中的所有模型都使用分层缩放策略来分配 Transformer 模型每一层内的参数。
据苹果公司称,这使他们能够提供更高的准确性结果,同时提高计算效率。该公司使用新的CoreNet库对模型进行预训练。
“我们的预训练数据集包含 RefinedWeb、去重 PILE、RedPajama 的子集和 Dolma v1.6 的子集,总计约 1.8 万亿个代币,”该公司在 HuggingFace 上指出。
性能表现
性能方面,苹果分享的OpenLLM结果显示模型表现相当不错,尤其是4.5亿参数指令变体。
此外,11 亿个 OpenELM 变体“比拥有 12 亿个参数的 OLMo 性能提高了 2.36%,同时需要的预训练令牌少了 2 倍。” OLMo是 艾伦人工智能研究所 (AI2)最近发布的“真正开源、最先进的大型语言模型”。
在旨在测试知识和推理技能的 ARC-C 基准测试中,经过预训练的 OpenELM-3B 变体的准确率达到 42.24%。与此同时,在 MMLU 和 HellaSwag 上,得分分别为 26.76% 和 73.28%。
一位已经开始测试该模型系列的用户指出,它似乎是一个“可靠的模型,但非常一致”,这意味着它的响应并不具有广泛的创造性,也不太可能冒险进入 NSFW 领域。
竞争对手微软最近推出的 Phi-3 Mini拥有 38 亿个参数和 4k 上下文长度,目前在该领域处于领先地位。
根据最近分享的统计数据,它在 10-shot ARC-C 基准上得分为 84.9%,在 5-shot MMLU 上得分为 68.8%,在 5-shot HellaSwag 上得分为 76.7%。
从长远来看,OpenELM 预计会得到改进。看到已经对 Apple 的开源举措感到兴奋的社区如何将其应用于不同的应用程序,将会很有趣。
文章评论