MBZUAI推出新型多语言视觉问答(VQA)基准测试CVQA(Culturally-diverse Multilingual Visual Question Answering Benchmark),CVQA旨在通过包含多种文化和语言,推动多模态人工智能(AI)系统的发展,特别是提高它们在理解和推理视觉及文本数据方面的能力。
- 项目主页:https://cvqa-benchmark.org/
- 数据:https://huggingface.co/datasets/afaji/cvqa
例如,你正在玩一个游戏,游戏会给你展示一张图片并提出一个问题,你需要根据图片内容给出答案。CVQA就像这样一个游戏,但它特别的地方在于,它不仅包含英语,还包括了世界上其他26种不同的语言和文化背景。这意味着,AI系统需要能够理解并回答各种语言的问题,并且答案要符合图片展示的文化环境。
主要功能:
- 提供一个大规模、多语言、具有文化多样性的视觉问答数据集。
- 测试和评估多模态大型语言模型(MLLMs)在不同文化和语言环境中的表现。
主要特点:
- 包含来自28个国家的9000个样本,涵盖26种语言和11种不同的文字系统。
- 问题和答案由母语者和文化专家进行标注和验证,确保高质量和文化的真实性。
- 数据集分为10个不同的类别,如交通工具、烹饪与食品、人物与日常生活等。
工作原理:
- 数据收集:通过众包的方式,让来自不同文化背景的母语者提供图片和问题。
- 问题创建:根据图片内容,创建与文化相关的多项选择题,每个问题有1个正确答案和3个干扰项。
- 数据验证:由另一名同语言和文化背景的标注者进行验证,确保问题符合指南要求。
- 模型评估:使用CVQA数据集对多模态大型语言模型进行评估,测试它们在不同语言和文化环境中的表现。
具体应用场景:
- 多语言理解:帮助AI系统更好地理解和处理不同语言的文本。
- 跨文化交流:在全球化的背景下,提高AI系统对不同文化背景的敏感性和适应性。
- 教育和培训:用于教育领域,教授AI系统识别和理解不同文化中的特定元素。
- 内容推荐:在多语言环境中为用户提供个性化的内容推荐。
论文还讨论了CVQA的局限性,如数据集规模限制了其在模型训练中的应用,以及文化定义的复杂性等。此外,作者希望CVQA能够激发AI社区对非英语中心模型和基准测试的更多关注,从而推动多语言、多模态研究的进步。
0条评论