Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。该数据集内容均由 Mixtral 7b 模型汇总生成,其中收录 3000 万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow 教程等内容,共计 250 亿个 Token。Cosmopedia 数据集除了收录上述文本文件外,还为每条文件提供了标注信息,其中包含“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。同时团队也提供较小的子数据集 Cosmopedia-100k,供用户轻松管理和使用。Hugging Face 表示,这次开源的数据集为 0.1 版本,未来团队还将持续更新该数据集,推进业界 AI 训练发展。
声明:
猎游人
每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料
猜你喜欢
- 构建和深入理解视觉-语言模型!Hugging Face推出理解视觉-语言模型Idefics3-8B
- Hugging Face推出专门为训练大语言模型而设计的大规模文本数据集FineWeb
- Hugging Face旗下AI聊天应用Hugging Chat上架苹果 App Store,在手机上使用各种开源大模型
- Hugging Face推出数据集WebSight和基于视觉-语言模型的系统Sightseer:它们旨在自动化网页截图到HTML代码的转换过程
- Simular推出新型框架Agent S:以让计算机像人类一样通过图形用户界面(GUI)自主执行复杂的多步骤任务
- GLOV:利用大语言模型(LLMs)来优化视觉-语言模型(VLMs)的技术,目的是提升下游视觉任务的性能
- 新型视频理解模型TRACE:专门设计来处理视频时间定位任务
- video-t3:提高视频大型语言模型(Video LLMs)在处理时间推理方面的能力
- 基于Mamba架构构建的大语言模型Falcon Mamba 7B
- TinyEmo:用于情感推理和分类的小型多模态语言模型系列
- CritiCS:使用大语言模型(LLMs)来创造具有叙事连贯性和创造力的长篇故事
- 新型大型视频语言模型Grounded-VideoLLM:擅长于理解视频中的精细时刻,并能够推理出具体发生在视频哪个时刻的事情
0条评论