当前位置：首页 > 优惠 >大语言模型>文章详情

中国电信LiteAI 团队推出开源大语言模型HARE

推荐人：暴走AI| 商城: AI | 10个月前 (06-23)| 分类：大语言模型 | 热度：236 ℃

已关闭评论

中国电信LiteAI 团队推出开源大语言模型HARE

AI

HARE 是由中国电信股份有限公司贵州分公司 LiteAI 团队开发的预训练模型，我们使用约600B Tokens的高质量开源和策略生成的合成数据作为预训练数据。论文的主题是探讨如何通过利用人类先验知识（human priors）来提高小型语言模型（Small Language Models，简称SLMs）的效率和性能。人类先验知识在这里指的是我们在处理数据、构建模型时所依赖的一些基本假设和经验法则。

GitHub：https://github.com/LiteAI-Team/HARE

论文中提出的HARE-1.1B模型通过上述方法进行训练，并在多个大规模基准数据集上进行了广泛的实验，结果表明该模型与现有的最先进SLMs相比具有竞争力，验证了所提原则的有效性。此外，论文还探讨了如何将人类先验知识整合到网络架构设计、损失函数和正则化中，以进一步提高SLMs的训练效率。

主要功能：

提升SLMs的效率：通过精心设计的训练数据集，提高模型在资源受限环境下的训练效率。
增强模型的泛化能力：通过确保数据集的多样性和质量一致性，提升模型对不同任务的适应能力。

主要特点：

数据集构建原则：强调在构建训练数据集时，要同时考虑语义多样性和数据质量的一致性，同时避免基准数据泄露。
避免数据泄露：在数据合成过程中，采取严格的数据清洗和去重措施，确保训练数据不会泄露基准测试数据。

工作原理：

数据清洗：通过启发式规则清洗开源预训练语料库，去除重复、隐私信息、网络链接等，确保数据质量。
数据合成：使用大型语言模型（如Mixtral-8×7B）对清洗后的数据进行合成，增加语义多样性。
NLP任务数据合成：创建大量自然语言处理任务（如问答、多项选择、填空、摘要等）的数据，以提高模型解决特定任务的能力。
数据去重：通过统计分析和n-gram重叠检查，去除与基准数据集相似度过高的样本，避免数据泄露。

具体应用场景：

实时响应系统：如聊天机器人，需要快速准确地回应用户的查询。
资源受限环境：在计算资源受限的情况下，SLMs可以提供与大型语言模型相媲美的性能。
多语言处理：SLMs可以用于处理和生成多种语言的文本，适用于国际化应用。

HARE

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：新型低延迟大语言模型推理框架LiveMind：语言模型能够在接收到不完整的提示（prompts）时就开始进行推理，从而减少用户等待响应的时间，提高交互体验

下一篇：新型量子化学数据集和基准测试∇2DFT：用于评估神经网络势能（NNPs）在药物分子模拟方面的性能

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录