万卷CC

优惠 上海AI实验室开源发布高质量语料“万卷CC”

  • 上海AI实验室开源发布高质量语料“万卷CC”
    AI
  • 上海人工智能实验室(上海AI实验室)发布新一代高质量大模型预训练语料“万卷CC”(WanJuan-CC),首批开源的语料覆盖过去十年互联网上的公开内容,包含1千亿字符(100B token),约400GB的高质量英文数据。作为“大模型语料数据联盟”今年首发的开源语料,WanJuan-CC将为学界和业界提供大规模、高质量... 阅读全文