华盛顿大学、Salesforce Research、斯坦福大学、德克萨斯大学奥斯汀分校、 加州大学伯克利分校的研究人员推出大规模多模态数据集MINT-1T,它是目前最大、最多样化的开源多模态交错数据集。MINT-1T的出现是为了解决目前开源大型多模态模型(LMMs)训练数据不足的问题,这些模型需要大量的图像和文本交错序列来进行训练。MINT-1T的实验结果表明,使用该数据集训练的LMMs在性能上可以与之前领先的数据集OBELICS训练的模型相媲美。这表明MINT-1T是一个强大的资源,可以推动开源社区在多模态模型方面的研究和开发。论文的数据和代码将在GitHub上公开发布,以便社区使用。
例如,你想要训练一个能够自动描述网页上图片内容的模型。使用MINT-1T,你可以从数据集中获取大量的图像和相关文本,这些数据可以帮助模型学习如何更好地理解图像内容并生成准确的描述。例如,如果模型看到一张图片和与之相关的文本描述“一个红色的苹果”,它将学会将这种视觉信息与语言描述相联系。
主要功能和特点:
- 大规模和多样性:MINT-1T包含了一万亿文本标记和三十亿图像,是现有开源数据集的10倍规模。
- 多源数据:除了常规的网页数据,MINT-1T还包括了PDF文件和ArXiv论文等未被充分利用的数据源。
- 数据质量:通过工程努力,MINT-1T在数据过滤、去重和安全性检查方面进行了严格的质量控制。
工作原理:
- MINT-1T的数据收集过程包括从CommonCrawl WARC文件和WAT文件中提取HTML和PDF文档,以及从ArXiv直接获取论文。
- 使用了一系列文本和图像过滤方法,比如使用Fasttext模型识别非英语文档,去除包含不适当子字符串的URL,以及使用图像检测器过滤不安全的内容。
- 为了保持数据的多样性,MINT-1T从不同的源(如HTML、PDF和ArXiv)收集数据,并在数据集中保持了这些源的原始顺序。
具体应用场景:
- 多模态模型训练:MINT-1T可以用来训练能够理解和生成图像与文本的多模态模型,这些模型在处理现实世界中的复杂数据时更为有效。
- 研究和开发:研究人员可以使用MINT-1T来开发和测试新的算法和模型,推动多模态学习和人工智能领域的发展。
0条评论