当前位置：首页 > 优惠 >大语言模型>文章详情

新型开源多语言大语言模型AURORA-M

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-03)| 分类：大语言模型 | 热度：210 ℃

已关闭评论

这篇论文介绍了一个名为AURORA-M的新型开源多语言大型语言模型（LLM），它是为了解决现有开源预训练模型在多语言能力、持续预训练导致的灾难性遗忘问题，以及遵守人工智能安全和发展法规方面的挑战而设计的。总的来说，AURORA-M是一个强大的多语言模型，它通过持续预训练和安全性调整，提高了模型的性能和安全性，使其能够在多种应用场景中发挥作用，同时遵守相关的法规和指导原则。

主要功能和特点：

多语言支持： AURORA-M能够理解和生成多种语言的文本，包括英语、芬兰语、印地语、日语、越南语和代码语言。
持续预训练： 该模型在StarCoderPlus模型的基础上，通过额外的435亿个令牌进行了持续预训练，总训练令牌数达到了2万亿。
安全性调整： AURORA-M是首个在人类审核的安全指令上进行微调的开源多语言模型，确保了其发展不仅符合常规的红队测试考虑，还符合拜登-哈里斯行政命令中关于人工智能安全、可靠和可信发展和使用的具体关切。

工作原理：

两阶段持续预训练： AURORA-M的训练包括两个阶段：持续辅助预训练（CAP）和持续对齐调整（CAT）。在CAP阶段，使用大量通用多语言网络数据对模型进行预训练，以建立坚实的基础。在CAT阶段，采用策略性的数据混合方法来提高模型在特定领域的性能，并与预定义目标对齐。
安全性调整： 通过创建和使用一个名为“Biden-Harris Redteam Dataset”的指令响应对数据集，对AURORA-M进行安全性调整，以确保模型在生成内容时的安全性和合规性。

具体应用场景：