多模态大语言模型
优惠 腾讯发布基准测试工具SEED-Bench-2-Plus:专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能
9个月前 (04-27)AI
腾讯发布基准测试工具SEED-Bench-2-Plus,它专门用于评估多模态大语言模型(MLLMs)在处理富含文本的视觉内容方面的性能。这类场景在现实世界中非常普遍,例如图表、地图和网页等,它们都包含了大量的文本信息嵌入在图像中。 主要功能和特点: 针对性的评估:SEED-Bench-2-Plus包含2.3K个多项选择... 阅读全文
优惠 专门设计用于视频理解!多模态大语言模型MiniGPT4-Video
10个月前 (04-05)AI
来自阿卜杜拉国王科技大学和哈佛大学推出多模态大语言模型MiniGPT4-Video,它专门设计用于视频理解,它通过结合视觉和文本数据,能够有效地理解和回应视频中的信息,为视频内容的智能分析和交互提供了新的可能性。想象一下,你在看一个视频,想要一个智能系统不仅能理解视频中的图像内容,还能理解视频中的文字对话。MiniGP... 阅读全文
优惠 HyperLLaVA:用于增强多模态大语言模型(MLLMs)性能的技术
10个月前 (03-21)AI
来自浙江大学、上海科技大学、 重庆大学、 阿里巴巴集团和哈尔滨工业大学的研究团队推出HyperLLaVA,它是一种用于增强多模态大型语言模型(MLLMs)性能的技术。HyperLLaVA的目标是改进现有的MLLMs,如LLaVA,通过动态调整模型的视觉和语言处理部分,使其能够更好地理解和生成与视觉内容相关的文本。总的来... 阅读全文
优惠 阿里推出DocOwl 1.5模型:用于理解文档图像的多模态大语言模型
10个月前 (03-20)AI
来自阿里巴巴和中国人民大学的研究团队推出DocOwl 1.5模型,它是一种用于理解文档图像的多模态大语言模型(MLLM)。DocOwl 1.5特别强调了结构信息在理解文本丰富图像(如文档、表格、图表等)中的重要性,并提出了一种统一结构学习方法来提升MLLM的性能。 GitHub地址:https://github.com... 阅读全文