当前位置：首页 > 优惠 >大语言模型>文章详情

收录 250 亿个 Token！Hugging Face开源 AI 训练数据集“Cosmopedia”

推荐人：暴走AI| 商城: AI | 1年前 (2024-02-23)| 分类：大语言模型 | 热度：360 ℃

已关闭评论

收录 250 亿个 Token！Hugging Face开源 AI 训练数据集“Cosmopedia”

AI

Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集，号称是目前世界上最大的合成数据集。该数据集内容均由 Mixtral 7b 模型汇总生成，其中收录 3000 万以上文本文件，包含大量教科书、博客文章、故事小说、WikiHow 教程等内容，共计 250 亿个 Token。Cosmopedia 数据集除了收录上述文本文件外，还为每条文件提供了标注信息，其中包含“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。同时团队也提供较小的子数据集 Cosmopedia-100k，供用户轻松管理和使用。Hugging Face 表示，这次开源的数据集为 0.1 版本，未来团队还将持续更新该数据集，推进业界 AI 训练发展。

收录 250 亿个 Token！Hugging Face开源 AI 训练数据集“Cosmopedia”

Cosmopedia Hugging Face

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：一站式GIF制作与编辑工具Ezgif，轻松完成调整尺寸、旋转、裁剪、优化透明度等工作

下一篇：开源代码生成系统OpenCodeInterpreter

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录