视觉-语言模型

优惠 AUTOHALLUSION:为视觉-语言模型自动生成幻觉基准测试

  • AUTOHALLUSION:为视觉-语言模型自动生成幻觉基准测试
    AI
  • 马里兰大学帕克分校的研究人员推出AUTOHALLUSION,这是一种为视觉-语言模型(Vision-Language Models,简称LVLMs)自动生成幻觉基准测试的方法。简单来说,LVLMs是一种人工智能,它们可以同时处理图像和语言信息,比如理解图片内容并根据图片生成描述文字。但问题是,这些模型有时会"幻想"出一... 阅读全文

    优惠 新型视觉-语言模型BRAVE:扩展和增强VLM在处理图像和语言任务时的视觉编码能力

  • 新型视觉-语言模型BRAVE:扩展和增强VLM在处理图像和语言任务时的视觉编码能力
    AI
  • 谷歌和洛桑瑞士联邦理工学院推出新型视觉-语言模型BRAVE,它的核心目标是扩展和增强VLM在处理图像和语言任务时的视觉编码能力。想象一下,如果你给BRAVE一个描述,比如“一只蝴蝶停在花上”,它不仅能够理解这个描述,还能从成千上万的图片中找到与描述最匹配的图像,甚至在没有明确指示的情况下回答关于图像的问题,例如回答“蝴... 阅读全文

    优惠 视觉-语言模型(VLMs)在RPMs智力测试表现如何

  • 视觉-语言模型(VLMs)在RPMs智力测试表现如何
    AI
  • 来自苹果的研究人员发布论文探讨了视觉-语言模型(VLMs)在视觉推理任务上的表现,特别是针对一种名为雷文进阶矩阵(Raven's Progressive Matrices,简称RPMs)的智力测试。RPMs是一种经典的智力测试工具,它要求参与者通过观察一系列图形,找出完成图案所需的正确图形。这项研究旨在评估VLMs在仅... 阅读全文

    优惠 CLoVe:提高现有的视觉-语言模型(VLMs)在处理组合语言时的能力

  • CLoVe:提高现有的视觉-语言模型(VLMs)在处理组合语言时的能力
    AI
  • 密歇根大学安娜堡分校、Netflix的研究人员发布论文介绍了一个名为CLoVe(Contrastive Language-Image Vision Models)的框架,旨在提高现有的视觉-语言模型(VLMs)在处理组合语言时的能力。VLMs,如CLIP模型,通常在识别图像中的对象方面表现出色,但在理解文本中单词顺序变... 阅读全文