Cosmopedia

优惠 收录 250 亿个 Token!Hugging Face开源 AI 训练数据集“Cosmopedia”

  • 收录 250 亿个 Token!Hugging Face开源 AI 训练数据集“Cosmopedia”
    AI
  • Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。该数据集内容均由 Mixtral 7b 模型汇总生成,其中收录 3000 万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow 教程等内容,共计 250 亿个 Token。Cosmo... 阅读全文