当前位置：首页 > 优惠 >大语言模型>文章详情

上海AI实验室开源发布高质量语料“万卷CC”

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-14)| 分类：大语言模型 | 热度：234 ℃

已关闭评论

上海人工智能实验室（上海AI实验室）发布新一代高质量大模型预训练语料“万卷CC”（WanJuan-CC），首批开源的语料覆盖过去十年互联网上的公开内容，包含1千亿字符（100B token），约400GB的高质量英文数据。作为“大模型语料数据联盟”今年首发的开源语料，WanJuan-CC将为学界和业界提供大规模、高质量的数据支撑，助力构建更智能可靠的AI大模型。

预训练数据的质量对大模型整体性能至关重要。当前，CommonCrawl（CC）数据集因其规模大、跨度广而成为国际主流大模型训练数据的重要来源。与此同时，其原始数据格式复杂、数据质量低等问题，或将导致模型训练效率低，甚至可能引发价值观对齐等方面的隐患。

中国科研人员通过原创的数据清洗技术，从CC数据库中抽取约1300亿份原始数据文档进行再处理，“萃取”出其中约1.38%的高质量内容，构建成WanJuan-CC语料库。实验结果显示，WanJuanCC具有高文本质量、高信息密度的特点，可满足当前大模型训练对大规模高质量语料的需求。上海AI实验室发布的书⽣·浦语2.0（InternLM2）即以WanJuan-CC为关键数据作支撑，使训练效率和语言建模能力大幅提升，综合性能领先开源社区。

上海AI实验室开源发布高质量语料“万卷CC”