多模态大语言模型
优惠 阿里巴巴推出多模态大语言模型mPLUG-Owl3
4个月前 (08-16)AI
阿里巴巴推出多模态大语言模型mPLUG-Owl3,它在处理单图像、多图像和视频任务方面取得了显著的进展。例如,你向mPLUG-Owl3展示一系列图片,并询问其中的天气情况,模型可以分析这些图片并告诉你哪一张是雪天。或者,如果你展示一段视频,并要求模型按时间顺序描述视频中的事件,mPLUG-Owl3可以准确地按照视频中的... 阅读全文
优惠 新型多模态大语言模型DenseFusion-1M:通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力
5个月前 (07-13)AI
北京大学、北京人工智能研究院和大连理工大学的研究人员推出一种新型多模态大型语言模型DenseFusion-1M,它通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力。这些模型能够理解图像中的多个对象、文本信息和空间关系,但它们的性能很大程度上受限于可用的高质量图像-文本数据集的质量。 GitHub:https:/... 阅读全文
优惠 Multimodal Self-Instruct:多模态大语言模型在理解和推理抽象图像方面的能力
5个月前 (07-13)AI
浙江大学的研究人员发布论文,论文的主题是关于如何提高大型多模态模型(LMMs)在理解和推理抽象图像方面的能力。多模态模型是一种人工智能技术,它能够处理和理解多种类型的数据,如文本、图像等。然而,尽管这些模型在处理自然场景照片和人像方面已经相当擅长,它们在处理图表、地图或布局等抽象图像时仍然存在困难。这些抽象图像通常由简... 阅读全文
优惠 新型高效视觉投影器TokenPacker:为多模态大语言模型设计
6个月前 (07-04)AI
浙江大学、蚂蚁集团和香港理工大学的研究人员推出一种新型的高效视觉投影器TokenPacker,它是为多模态大语言模型(MLLM)设计的。多模态大型语言模型是一种人工智能技术,它结合了视觉识别和语言处理的能力,可以理解和生成涉及图像和文本的内容。总的来说,TokenPacker是一个强大的工具,它通过高效地转换和打包视觉... 阅读全文