当前位置：首页 > 优惠 >大语言模型>文章详情

基准测试和指令调整数据集MMDU：专门为大型视觉语言模型设计

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-18)| 分类：大语言模型 | 热度：364 ℃

已关闭评论

武汉大学、上海人工智能实验室、香港中文大学和MThreads的研究人员推出基准测试和指令调整数据集MMDU（Multi-Turn Multi-Image Dialog Understanding），专门为大型视觉语言模型（LVLMs）设计的。这些模型就像人工智能助手，能够理解图片和文字，然后给出回应。但是，现有的AI助手在处理复杂情况时，比如需要根据多张图片和多轮对话来理解上下文并作出回应，就有点儿力不从心了。

项目主页：https://liuziyu77.github.io/MMDU
GitHub：https://github.com/Liuziyu77/MMDU
数据集：https://huggingface.co/datasets/laolao77/MMDU

基准测试和指令调整数据集MMDU：专门为大型视觉语言模型设计

主要功能和特点：

多轮对话理解：MMDU能够测试AI助手在多轮对话中理解问题和图片的能力。
多图理解：它可以处理包含多张图片的对话场景，这比以往的测试更加接近真实世界的使用情况。
长文本处理：MMDU能够处理长达18k的文本和图片标记，这比以往的基准测试要长得多。

工作原理：

研究者们使用了一种聚类算法，从开源的维基百科上找到相关的图片和文本描述。
然后，他们利用GPT-4o模型（一种预训练的语言模型）辅助生成问题和答案对，并由人工标注者进行评估和修正，以产生基准测试的答案。

具体应用场景：

想象一下，你在规划一次旅行，你向AI助手展示了几张目的地的图片，并且问它关于这些地方的历史和文化。AI助手需要理解这些图片，并且结合之前的对话内容，给出准确的回答。
另一个例子是，你在设计一个家居装修项目，你向AI助手展示了一些房间的图片和一些设计草图，然后问它如何将这些设计元素融合到现有空间中。AI助手需要理解这些视觉信息，并给出专业的建议。