优惠基准测试NL-EYE：评估视觉语言模型（VLMs）在图像上进行推理的能力

AI

推荐人：暴走AI 标签：NL-EYE 基准测试 AI

1年前 (2024-10-07)AI

以色列理工学院和谷歌的研究人员推出一个名为NL-EYE的基准测试，它是为了评估视觉语言模型（VLMs）在图像上进行推理的能力而设计的。例如，一个基于VLM的机器人检测到地板湿了，它是否会警告我们小心滑倒？这就是NL-EYE想要测试的——VLMs是否能够理解图像内容，并据此做出合理的推断。项目主页：https://ve... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠基准测试CKnowEdit：通过知识编辑技术纠正和改进大语言模型中的中文知识

AI

推荐人：暴走AI 标签：CKnowEdit 基准测试 AI

1年前 (2024-09-11)AI

浙江大学和加州大学圣地亚哥分校的研究人员推出基准测试CKnowEdit，旨在通过知识编辑技术纠正和改进大语言模型（LLMs）中的中文知识。这项工作特别关注中文语言和文化领域，因为这些领域在现有的LLMs中常常被误解或处理不当。数据集：https://huggingface.co/datasets/zjunlp/CKn... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型基准测试GRAB：评估和推动大型多模态模型在图形分析方面的能力而设计

AI

推荐人：暴走AI 标签：GRAB 基准测试 AI

1年前 (2024-08-23)AI

剑桥大学和香港大学的研究人员推出新型基准测试GRAB，专为评估和推动大型多模态模型（Large Multimodal Models，简称LMMs）在图形分析方面的能力而设计。这些模型在许多视觉任务中表现出了强大的能力，但现有的基准测试对于新一代的LMMs来说已经不够有挑战性。因此，研究者们需要一个更难、更全面的测试来评... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠苹果推出全面基准测试MMAU：评估大语言模型作为智能代理在多个领域的能力

AI

推荐人：暴走AI 标签：MMAU 基准测试 AI

1年前 (2024-07-30)AI

苹果推出全面基准测试MMAU（Massive Multitask Agent Understanding），它用于评估大语言模型（LLMs）作为智能代理在多个领域的能力。MMAU通过一系列精心设计的任务，来测试和分析这些模型在理解、推理、规划、解决问题和自我修正等关键能力上的表现。例如，我们想测试一个语言模型在解决数... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠基准测试Visual Haystacks：模拟了现实世界的场景，要求模型不仅要找到包含答案的图片，还要利用视觉内容进行推理来回答具体问题

AI

推荐人：暴走AI 标签：Visual Haystacks 基准测试 AI

1年前 (2024-07-24)AI

加州大学伯克利分校的研究人员发布论文，论文的主题是关于如何让计算机更好地回答关于多张图片集合的问题，这在现实世界中非常有用，比如在翻看大量照片、网上搜索特定信息，或者通过卫星图像监控环境变化时。我们可以把这个问题想象成在一堆干草中找到一根针，但更难，因为需要在很多堆干草中找到答案。论文还提到了他们创建的Visual ... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠基准测试MMNeedle：专门用来考验这些模型在复杂视觉和文本环境中检索特定信息的能力

AI

推荐人：暴走AI 标签：MMNeedle 基准测试 AI

1年前 (2024-06-20)AI

罗格斯大学、微软研究院等研究人员推出基准测试“MultiModal Needle-in-a-haystack”（简称MMNeedle），评估和测试多模态大型语言模型（Multimodal Large Language Models，简称MLLMs）在处理长文本上下文方面的能力，专门用来考验这些模型在复杂视觉和文本环境中... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠基准测试和指令调整数据集MMDU：专门为大型视觉语言模型设计

AI

推荐人：暴走AI 标签：MMDU 基准测试 AI

1年前 (2024-06-18)AI

武汉大学、上海人工智能实验室、香港中文大学和MThreads的研究人员推出基准测试和指令调整数据集MMDU（Multi-Turn Multi-Image Dialog Understanding），专门为大型视觉语言模型（LVLMs）设计的。这些模型就像人工智能助手，能够理解图片和文字，然后给出回应。但是，现有的AI助... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新框架LMC：用于对大语言模型在高度主观任务上的表现进行基准测试

AI

推荐人：暴走AI 标签：LMC 基准测试大语言模型 AI

1年前 (2024-06-16)AI

Predibase、博科尼大学的研究人员推出新框架“Language Model Council”（LMC），用于对大语言模型（LLMs）在高度主观任务上的表现进行基准测试。这个框架通过民主化的过程来评估和排名模型，尤其是在情感智能、创造性写作或说服力等主观性强、缺乏普遍共识的任务上。LMC框架的局限性，如只研究了单轮... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新基准测试CRAG：专门为评估和提升检索增强型生成系统在处理大语言模型时性能而设计

AI

推荐人：暴走AI 标签：CRAG 基准测试 AI

1年前 (2024-06-11)AI

Meta Reality Labs、香港科技大学和香港科技大学（广州）的研究人员推出新基准测试CRAG（Comprehensive RAG Benchmark），它是专门为评估和提升检索增强型生成（Retrieval-Augmented Generation，简称RAG）系统在处理大语言模型（Large Languag... 阅读全文

直达链接好 0 不好 0 已关闭评论