近日,苹果公司公开发布了若干个开源大语言模型(LLMs),命名为 OpenELM(开源高效语言模型),这些模型专门设计为在本地设备上运行,而非依赖云端服务器。用户现可在 Hugging Face平台上获取这些模型及其相关资源。(参考:苹果推出新型大型开放语言模型OpenELM:提高自然语言处理领域的研究透明度和可复现性)
苹果研发的 OpenELM 系列共计包含八个模型,其中四个采用 CoreNet 库进行了预训练,另外四个则是经过指令微调的版本。在技术论文中指出,苹果采用了逐层缩放策略,旨在提高模型的精确度与效率。
OpenELM 通过巧妙地在Transformer模型的各个层级内部平衡参数分配,实现了性能上的显著提升。例如,在参数量约10亿级别时,OpenELM相较于OLMo模型的准确率提高了2.36%,并且所需预训练数据量减半。
值得注意的是,苹果不仅提供了最终训练完成的模型权重和推理代码,还一并发布了完整的训练框架,包括训练日志、多个检查点以及预训练配置文件,并且所有这些都是基于公开数据集进行训练和评估的。这样的透明化举措旨在促进自然语言人工智能领域的快速进步,带来“更可靠的结果”。
苹果推出OpenELM的初衷是为了赋能并丰富开源研究社区,让其掌握最先进的语言模型技术。公开源码使得研究人员能够深入探讨潜在的风险、数据偏见以及模型偏差问题。同时,开发者和各企业既可以直接使用这些模型,也可以在此基础上进行个性化定制。
苹果通过开放分享此类信息,已成为吸引顶尖工程师、科学家和专业人才的重要途径,特别是在过去受到严格保密政策限制的研究领域。尽管当前苹果设备尚未内置这类AI功能,但业界预测在未来的iOS 18系统更新中或将集成诸多新的人工智能特性,更有传闻称苹果正计划在设备端运行大型语言模型,以保护用户隐私。
0条评论