中国电信LiteAI 团队推出开源大语言模型HARE

分类:大语言模型 | 热度:142 ℃

HARE 是由中国电信股份有限公司贵州分公司 LiteAI 团队开发的预训练模型,我们使用约600B Tokens的高质量开源和策略生成的合成数据作为预训练数据。论文的主题是探讨如何通过利用人类先验知识(human priors)来提高小型语言模型(Small Language Models,简称SLMs)的效率和性能。人类先验知识在这里指的是我们在处理数据、构建模型时所依赖的一些基本假设和经验法则。

  • GitHub:https://github.com/LiteAI-Team/HARE

论文中提出的HARE-1.1B模型通过上述方法进行训练,并在多个大规模基准数据集上进行了广泛的实验,结果表明该模型与现有的最先进SLMs相比具有竞争力,验证了所提原则的有效性。此外,论文还探讨了如何将人类先验知识整合到网络架构设计、损失函数和正则化中,以进一步提高SLMs的训练效率。

主要功能:

  • 提升SLMs的效率:通过精心设计的训练数据集,提高模型在资源受限环境下的训练效率。
  • 增强模型的泛化能力:通过确保数据集的多样性和质量一致性,提升模型对不同任务的适应能力。

主要特点:

  • 数据集构建原则:强调在构建训练数据集时,要同时考虑语义多样性和数据质量的一致性,同时避免基准数据泄露。
  • 避免数据泄露:在数据合成过程中,采取严格的数据清洗和去重措施,确保训练数据不会泄露基准测试数据。

工作原理:

  1. 数据清洗:通过启发式规则清洗开源预训练语料库,去除重复、隐私信息、网络链接等,确保数据质量。
  2. 数据合成:使用大型语言模型(如Mixtral-8×7B)对清洗后的数据进行合成,增加语义多样性。
  3. NLP任务数据合成:创建大量自然语言处理任务(如问答、多项选择、填空、摘要等)的数据,以提高模型解决特定任务的能力。
  4. 数据去重:通过统计分析和n-gram重叠检查,去除与基准数据集相似度过高的样本,避免数据泄露。

具体应用场景:

  • 实时响应系统:如聊天机器人,需要快速准确地回应用户的查询。
  • 资源受限环境:在计算资源受限的情况下,SLMs可以提供与大型语言模型相媲美的性能。
  • 多语言处理:SLMs可以用于处理和生成多种语言的文本,适用于国际化应用。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论