来自Inria 、法国国立科学研究院、巴黎政治大学、巴黎圣日耳曼大学信息科学系、法国国立科学研究院、巴黎政治大学信息科学发展与资源研究所、法国巴黎索邦大学、 通用爬行基金会和巴黎萨克雷大学的研究人员推出大型多语言多模态文档级语料库mOSCAR,mOSCAR是为了支持和改进多模态大型语言模型(mLLMs)的研究而创建的,这些模型通常在大量文本和图像数据上进行训练。以往的mLLMs训练主要集中在类似图片描述的数据上,但研究表明,如果在训练中加入文本和图像交错的序列,可以提升模型在上下文学习方面的能力。然而,之前使用的数据集要么不是公开的,要么只限于英语。mOSCAR的推出旨在改变这一现状,它是一个从网络上抓取的、覆盖163种语言的大规模多语言多模态文档库。
- 项目主页:https://oscar-project.github.io/documentation/versions/mOSCAR
例如,你有一个能够理解不同语言和识别图片内容的智能助手。这个助手可以通过阅读网页上的文本和图片来学习不同的文化和知识。mOSCAR就像这样一个助手的大脑,它包含了来自世界各地的文本和图片,能够处理和理解多种语言,从而帮助智能助手更好地理解和回应各种问题。
主要功能:
- 提供一个大规模的多语言多模态数据集,用于训练和评估mLLMs。
- 支持在多种语言和文化背景下的图像和文本处理任务。
主要特点:
- 多语言支持:覆盖了163种语言,使模型能够处理不同语言的文本和图像。
- 大规模数据:包含3.15亿个文档、2140亿个token和12亿张图片。
- 多样性和质量:通过一系列的过滤和评估步骤确保数据集的安全性、多样性和高质量。
工作原理:
- 数据收集:从Common Crawl的网络抓取数据中提取文本和图像。
- 语言识别:使用语言检测器来识别文档的语言。
- 文本和图像过滤:应用启发式规则和模型来过滤掉低质量和不适宜的内容。
- 数据去重:通过计算文本和图像的相似性,去除重复的数据,以提高训练效率。
具体应用场景:
- 多模态学习:用于训练能够理解图像和文本的人工智能模型。
- 跨语言理解:帮助模型更好地理解和生成不同语言的内容。
- 文化多样性:通过包含多种文化背景的数据,提高模型对不同文化内容的识别和处理能力。
论文还展示了mOSCAR数据集在多种多语言图像-文本任务和基准测试中的有效性,证明了它对于提升现有模型在少数镜头学习性能方面的好处。此外,论文还讨论了mOSCAR的潜在社会影响,包括促进更多语言和文化在mLLMs研究中的代表性。
0条评论