上海人工智能实验室、哈尔滨工业大学、南京大学、复旦大学、香港中文大学、商汤科技研究院和清华大学的研究团队推出大规模多模态数据集OmniCorpus,它包含了十亿级别的图像和文本数据,这些数据以自然文档的格式排列,模仿了互联网数据的呈现方式,也符合人类的阅读习惯。这个数据集的建立旨在推动多模态大型语言模型(MLLMs)的发展,因为现有的图像-文本交织数据规模和多样性有限,限制了MLLMs的潜能发挥。这个数据集能够为未来的多模态模型研究提供坚实的数据基础,并且已经公开了代码和数据集,以便研究社区使用和进一步研究。
例如,一个多模态大型语言模型需要学习如何理解和生成关于一张图片的描述。在OmniCorpus数据集中,模型可以找到与图片相关的文本描述,并学习如何将它们关联起来。例如,一张图片显示了一个海滩场景,旁边的文本可能描述了海滩上的活动,模型通过学习这些数据对,能够更好地理解图像内容并生成描述性文本。
主要功能:
- 提供一个大规模、高质量、多源的图像-文本交织数据集,用于训练和提升多模态大型语言模型的性能。
主要特点:
- 规模大:OmniCorpus是目前最大的多模态数据集,包含86亿张图像和1696亿个文本token。
- 来源多样:数据来自不同的源,包括英文和非英文网站以及视频中心网站,增加了数据的多样性。
- 格式灵活:数据集采用流式数据格式,可以轻松地从图像-文本交织格式转换为纯文本语料库和图像-文本对。
工作原理:
- 开发了一个高效的数据引擎来过滤和提取大规模的高质量文档。
- 通过人工反馈文本过滤器减少文本中的噪声,比如广告和其他不相关内容。
- 使用改进的Trafilatura算法提取网页的主要内容,并采用一系列策略来过滤和优化数据。
具体应用场景:
- 多模态学习:用于训练和微调多模态大型语言模型,以提高其在图像描述、视觉问题回答等任务上的性能。
- 机器学习和人工智能研究:为研究人员提供丰富的数据资源,以探索和改进机器理解视觉和语言的能力。
0条评论