武汉大学、上海人工智能实验室、香港中文大学和MThreads的研究人员推出基准测试和指令调整数据集MMDU(Multi-Turn Multi-Image Dialog Understanding),专门为大型视觉语言模型(LVLMs)设计的。这些模型就像人工智能助手,能够理解图片和文字,然后给出回应。但是,现有的AI助手在处理复杂情况时,比如需要根据多张图片和多轮对话来理解上下文并作出回应,就有点儿力不从心了。
- 项目主页:https://liuziyu77.github.io/MMDU
- GitHub:https://github.com/Liuziyu77/MMDU
- 数据集:https://huggingface.co/datasets/laolao77/MMDU
主要功能和特点:
- 多轮对话理解:MMDU能够测试AI助手在多轮对话中理解问题和图片的能力。
- 多图理解:它可以处理包含多张图片的对话场景,这比以往的测试更加接近真实世界的使用情况。
- 长文本处理:MMDU能够处理长达18k的文本和图片标记,这比以往的基准测试要长得多。
工作原理:
- 研究者们使用了一种聚类算法,从开源的维基百科上找到相关的图片和文本描述。
- 然后,他们利用GPT-4o模型(一种预训练的语言模型)辅助生成问题和答案对,并由人工标注者进行评估和修正,以产生基准测试的答案。
具体应用场景:
- 想象一下,你在规划一次旅行,你向AI助手展示了几张目的地的图片,并且问它关于这些地方的历史和文化。AI助手需要理解这些图片,并且结合之前的对话内容,给出准确的回答。
- 另一个例子是,你在设计一个家居装修项目,你向AI助手展示了一些房间的图片和一些设计草图,然后问它如何将这些设计元素融合到现有空间中。AI助手需要理解这些视觉信息,并给出专业的建议。
论文的贡献:
- 论文不仅提出了MMDU基准测试,还提供了一个大规模的指令调整数据集MMDU-45k,用于提升LVLMs在多轮和多图对话中的能力。
- 通过对15种代表性的LVLMs进行评估,论文揭示了开源LVLMs与闭源模型之间的性能差距,并指出了改进的方向。
简而言之,这篇论文为提高AI在理解和回应复杂视觉和语言输入方面的能力提供了新的工具和见解。
0条评论