美国AI初创公司Cohere于2月13日公布了一款全新的开源多语言生成性大语言模型(LLM),名为Aya,它支持101种不同的语言,这一数字超过了现有开源模型所涵盖语言数量的两倍以上。此外,该公司还发布了迄今为止最大的多语言指令微调数据集,该数据集规模高达5.13亿条样本,涵盖了114种语言。此数据集收集了来自世界各地母语人士和流利使用者的独特注释。
官方公告地址:https://txt.cohere.com/aya
以下是官方公告全文:
今日,Cohere旗下的非营利研究机构Cohere For AI(简称C4AI)的研究团队自豪地宣布推出一款最新的开源、多语言、生成式大型语言研究模型——Aya LLM。这款模型覆盖了101种不同的语言,相较于现有的开源模型,其语言覆盖面提升了超过一倍。Aya模型旨在发掘并释放那些在多数先进模型中被忽视的多种语言和文化所蕴含的巨大潜能。
我们将开放Aya模型源代码,并同步提供迄今为止全球最大的多语言指令微调数据集,其中包含了5.13亿条来自114种语言的标注样本。这个庞大的数据采集工作汇聚了世界各地母语者及熟练语言使用者提供的稀有且宝贵的注释资源,确保人工智能技术能够有效地服务于之前难以触及的广大全球用户群体。
缩小语言与文化鸿沟
Aya作为机器学习领域大规模多语言AI研究范式转变的一部分,不仅体现了技术上的飞跃,更突显了研究方式、地域以及参与主体的变革。
随着LLM和AI技术的广泛普及,全球科技格局已然发生变化,但许多非英语地区社区由于语言局限性而无法得到相应技术支持。这一鸿沟限制了生成式AI对全球用户的适应性和实用性,可能进一步加剧已存在于现有技术发展中的差距。当前大多数模型主要依赖英语和其他少数几种语言进行训练,往往反映出一定的文化偏向性。
我们启动Aya项目的目标正是为了填补这一空白,联合了来自119个国家超过3000名独立研究人员共同参与。
显著超越现有开源多语言模型性能
Aya背后的科研团队成功提升了针对服务不足的语言群的模型性能,在广泛的语种环境中,在诸如自然语言理解、摘要生成和翻译等复杂任务上表现出卓越能力。
通过对Aya与目前可用的顶级开源大型多语言模型进行基准测试,结果显示Aya在多个指标上大幅度超越了诸如mT0和Bloomz等最佳开源模型。在针对这些领先开源模型进行的人类评估中,Aya始终保持至少75%的得分优势,在模拟胜率方面更是达到了80-90%的高位。
Aya扩展了对于包括索马里语、乌兹别克语在内的50多种此前未被充分覆盖的语言的支持。虽然专有模型在服务世界最常用语言方面表现优秀,但Aya为数十种代表性不足的语言研究者提供了前所未有的开源工具。
迄今最大规模的多语言数据集训练
我们发布的Aya集合包含5.13亿个提示及其完成内容,覆盖了114种语言。这一庞大集合由全球各地的语言流利者构建,他们设计了模板并扩充了一个精心策划的数据集列表。其中还包括了一个前所未有的大规模、人类标注的多语言指令微调数据集——Aya 数据集,该数据集大约包含20.4万个由67种语言的流利说话者精心编排的罕见标注实例,从而确保了强大而多样化的语言覆盖范围。这为开发者和研究者提供了一个大规模高质量的语言数据仓库。
在这一体系中,许多语言以前未曾出现在指令式风格的数据集中。这一完全许可并开源的数据集囊括了各种方言和原始贡献,真实反映了有机、自然和非正式的语言使用场景,使其成为多元语言研究及语言保护工作的宝贵资源。
如何加入与使用
我们已经以完全许可的Apache 2.0许可证发布了Aya模型和Aya数据集,目的在于促进多语言研究成果的广泛应用。通过这一许可证,学术界、民间组织和小型企业均能利用Aya模型和数据产生更深远的影响。
Aya将成为其他开放科学项目的基石,我们计划持续优化和完善Aya的功能。如果您希望参与到这一开放科学倡议中来,确保您的语言得到体现,请访问Aya项目网站注册并开始使用。您还可以在Cohere Playground平台试用Aya模型,或下载模型和数据集进行探索。
欲了解更多关于这项研究及其背后团队的信息,请查阅我们的纪录片。我们还将于2月16日星期五举办一场虚拟活动,届时将分享更多有关新推出的Aya模型的详细信息。
0条评论