OmniCorpus

优惠 大规模多模态数据集OmniCorpus:包含了十亿级别的图像和文本数据

  • 大规模多模态数据集OmniCorpus:包含了十亿级别的图像和文本数据
    AI
  • 上海人工智能实验室、哈尔滨工业大学、南京大学、复旦大学、香港中文大学、商汤科技研究院和清华大学的研究团队推出大规模多模态数据集OmniCorpus,它包含了十亿级别的图像和文本数据,这些数据以自然文档的格式排列,模仿了互联网数据的呈现方式,也符合人类的阅读习惯。这个数据集的建立旨在推动多模态大型语言模型(MLLMs)的... 阅读全文