AUTOHALLUSION:为视觉-语言模型自动生成幻觉基准测试

分类:大语言模型 | 热度:59 ℃

马里兰大学帕克分校的研究人员推出AUTOHALLUSION,这是一种为视觉-语言模型(Vision-Language Models,简称LVLMs)自动生成幻觉基准测试的方法。简单来说,LVLMs是一种人工智能,它们可以同时处理图像和语言信息,比如理解图片内容并根据图片生成描述文字。但问题是,这些模型有时会"幻想"出一些实际上并不存在的事物或情况,这种现象被称为"幻觉"(Hallucinations)。

例如,我们有一张办公室的图片,里面有桌子、椅子和电脑。AUTOHALLUSION可能会在这个场景中插入一个不应该出现的物体,比如一个烤面包机,并问LVLM:“图片里有一个烤面包机吗?”如果LVLM回答“是的”,而实际上图片中并没有烤面包机,那么这就表明LVLM产生了幻觉。

主要功能:

  • 自动生成幻觉案例:AUTOHALLUSION能够自动创建出一些特定的图像和问题,用以测试LVLMs是否会出现幻觉。

主要特点:

  • 多样性:它采用多种策略生成幻觉案例,包括异常物体插入、成对物体插入和相关物体移除。
  • 高效性:以最低的人力成本大规模生产幻觉案例。
  • 深入洞察:揭示了LVLMs产生幻觉的常见模式和原因。

工作原理:

  1. 场景生成:首先创建一个具有强烈上下文的场景图像。
  2. 图像操作:根据场景中的上下文元素,通过插入异常物体、成对物体或移除相关物体来操纵图像。
  3. 问题构建:基于图像操作创建问题,这些问题主要关注目标物体的存在和空间关系。
  4. 幻觉检测:通过正确性和一致性标准评估LVLMs生成的答案是否出现幻觉。

具体应用场景:

  • 内容生成:帮助改进LVLMs生成的文本内容,确保它们不会编造不存在的信息。
  • 自动驾驶:确保自动驾驶系统中的AI不会误解道路情况。
  • 机器人技术:提升机器人对环境的理解,避免基于错误信息做出决策。

这项技术的开发对于提升LVLMs的可靠性和准确性至关重要,特别是在需要高度准确性的领域,如医疗成像分析或安全关键的应用中。通过检测和控制幻觉,可以使这些智能系统更加值得信赖。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论