优惠新型基准测试工具MUIRBENCH：用来评估多模态大语言模型在理解多图像方面的能力

AI

推荐人：暴走AI 标签：MUIRBENCH 基准测试工具多模态大语言模型 AI

2年前 (2024-06-16)AI

南加州大学、宾大、明尼苏达大学、加州大学戴维斯分校、威斯康星大学麦迪逊分校、加州大学洛杉矶分校、俄亥俄州立大学、字节跳动和微软研究院的研究人员推出新型基准测试工具MUIRBENCH，它专门用来评估多模态大型语言模型（LLMs）在理解多图像方面的能力。简单来说，MUIRBENCH测试的是，当AI面对多个图片时，它是否能够... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠全新评估基准Video-MME：用来测试多模态大语言模型在视频分析方面的表现

AI

推荐人：暴走AI 标签：Video-MME 多模态大语言模型 AI

2年前 (2024-06-03)AI

Video-MME Team推出全新评估基准Video-MME，它专门用来测试多模态大语言模型（MLLMs）在视频分析方面的表现。多模态意味着模型能够同时处理和理解视频、音频、文本等多种类型的数据。项目主页：https://video-mme.github.io/home_page.html GitHub：https... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型多模态大语言模型AlignGPT：提升模型对视觉和语言信息之间对齐能力的理解

AI

推荐人：暴走AI 标签：AlignGPT 多模态大语言模型 AI

2年前 (2024-05-24)AI

南京大学研究人员推出新型多模态大语言模型AlignGPT，它特别关注于提升模型对视觉和语言信息之间对齐能力的理解。简单来说，AlignGPT就像是一个超级学霸，它不仅能看懂图片，还能理解文字，并且能把这两者关联起来，给出非常聪明的回答。例如，你给AlignGPT一张蛋糕的图片，并问它“蛋糕上有多少颗草莓？”，Align... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠腾讯发布基准测试工具SEED-Bench-2-Plus：专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能

AI

推荐人：暴走AI 标签：SEED-Bench-2-Plus 多模态大语言模型 AI

2年前 (2024-04-27)AI

腾讯发布基准测试工具SEED-Bench-2-Plus，它专门用于评估多模态大语言模型（MLLMs）在处理富含文本的视觉内容方面的性能。这类场景在现实世界中非常普遍，例如图表、地图和网页等，它们都包含了大量的文本信息嵌入在图像中。主要功能和特点：针对性的评估：SEED-Bench-2-Plus包含2.3K个多项选择... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠如何提高多模态大语言模型（MLLMs）推理（inference）效率

AI

推荐人：暴走AI 标签：多模态大语言模型 AI

2年前 (2024-04-16)AI

高通发布论文探讨了如何提高多模态大语言模型（MLLMs）推理（inference）效率的问题。MLLMs是一类能够处理包括文本和图像在内的多种模态数据的模型，它们在现实世界中非常有用，因为我们的数据通常包含多种形式，如文本、图片等。然而，这些模型在处理数据时往往速度较慢，因为它们需要逐个生成令牌（tokens），并且受... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态大语言模型Ferret-v2：专门设计用于提升图像理解和自然语言处理的能力

AI

推荐人：暴走AI 标签：Ferret-v2 多模态大语言模型 AI

2年前 (2024-04-12)AI

苹果推出一个升级版的多模态大语言模型Ferret-v2，专门设计用于提升图像理解和自然语言处理的能力。例如，你有一个智能助手，它不仅能理解你说的话，还能看懂图片里的内容，并根据图片和你的问题给出精确的回答。Ferret-v2就是这样一个系统，它能够识别和描述图片中的物体，理解图片中的细节，并根据这些信息回答有关图片的问... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠专门设计用于视频理解！多模态大语言模型MiniGPT4-Video

AI

推荐人：暴走AI 标签：MiniGPT4-Video 多模态大语言模型 AI

2年前 (2024-04-05)AI

来自阿卜杜拉国王科技大学和哈佛大学推出多模态大语言模型MiniGPT4-Video，它专门设计用于视频理解，它通过结合视觉和文本数据，能够有效地理解和回应视频中的信息，为视频内容的智能分析和交互提供了新的可能性。想象一下，你在看一个视频，想要一个智能系统不仅能理解视频中的图像内容，还能理解视频中的文字对话。MiniGP... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 HyperLLaVA：用于增强多模态大语言模型（MLLMs）性能的技术

AI

推荐人：暴走AI 标签：HyperLLaVA 多模态大语言模型 AI

2年前 (2024-03-21)AI

来自浙江大学、上海科技大学、重庆大学、阿里巴巴集团和哈尔滨工业大学的研究团队推出HyperLLaVA，它是一种用于增强多模态大型语言模型（MLLMs）性能的技术。HyperLLaVA的目标是改进现有的MLLMs，如LLaVA，通过动态调整模型的视觉和语言处理部分，使其能够更好地理解和生成与视觉内容相关的文本。总的来... 阅读全文

直达链接好 2 不好 0 已关闭评论

优惠阿里推出DocOwl 1.5模型：用于理解文档图像的多模态大语言模型

AI

推荐人：暴走AI 标签：DocOwl 1.5 多模态大语言模型 AI

2年前 (2024-03-20)AI

来自阿里巴巴和中国人民大学的研究团队推出DocOwl 1.5模型，它是一种用于理解文档图像的多模态大语言模型（MLLM）。DocOwl 1.5特别强调了结构信息在理解文本丰富图像（如文档、表格、图表等）中的重要性，并提出了一种统一结构学习方法来提升MLLM的性能。 GitHub地址：https://github.com... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠苹果推出多模态大语言模型MM1

AI

推荐人：暴走AI 标签：MM1 多模态大语言模型苹果 AI

2年前 (2024-03-15)AI

苹果推出多模态大语言模型MM1，这是一个结合了图像和文本处理能力的AI模型。MM1通过在大规模的图像-文本数据上进行预训练，学会了理解和生成与图像相关的文本，例如图像描述、回答关于图像的问题等。主要功能和特点：多模态理解与生成： MM1能够处理和理解图像和文本数据，生成与图像内容相关的文本。大规模预训练：通过在... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠经过改进的多模态大语言模型LLaVA-HR：专门设计来处理高分辨率图像，以提高在视觉和语言任务上的性能

AI

推荐人：暴走AI 标签：LLaVA-HR 多模态大语言模型 AI

2年前 (2024-03-06)AI

LLaVA-HR（LLaVA High-Resolution）是一个经过改进的多模态大语言模型（MLLM），它专门设计来处理高分辨率图像，以提高在视觉和语言任务上的性能。这个模型是基于LLaVA-1.5的架构，通过引入Mixture-of-Resolution Adaptation (MRA) 技术，使得模型能够更有效... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠基准测试MAD-Bench：系统地检验多模态大语言模型在面对文本提示和图像不一致时的冲突解决能力

AI

推荐人：暴走AI 标签：MAD-Bench 多模态大语言模型 AI

2年前 (2024-02-21)AI

关于评估多模态大语言模型（MLLMs）在处理欺骗性提示（deceptive prompts）时的脆弱性，来自苹果的研究人员创建了一个名为MAD-Bench的基准测试，它包含了850个测试样本，分为六个类别，如不存在的对象、对象数量、空间关系和视觉混淆等，用以系统地检验MLLMs在面对文本提示和图像不一致时的冲突解决能力... 阅读全文

直达链接好 0 不好 0 已关闭评论