全面基准测试工具VideoHallucer:专门用来检测和评估LVLMs在视频理解任务中的幻觉问题

分类:大语言模型 | 热度:48 ℃

北京通用人工智能研究院、通用人工智能国家重点实验室、北京大学和加州大学圣克鲁斯分校推出全面基准测试工具VideoHallucer,专门用来检测和评估LVLMs在视频理解任务中的幻觉问题。所谓“幻觉”,指的是这些模型在理解视频内容时,可能会生成与实际视频内容不符、无关或无意义的信息,这种现象可能会误导用户。VideoHallucer通过提供这些问题和正确答案的对,帮助研究人员和开发人员理解模型在哪些方面容易出错,并采取措施来改进模型,减少幻觉的发生。

  • 项目主页:https://videohallucer.github.io
  • GitHub:https://github.com/patrick-tssn/VideoHallucer
  • 数据:https://huggingface.co/datasets/bigai-nlco/VideoHallucer

例如,一个视频展示了一个人在厨房烹饪,视频内容是这个人在切菜。如果一个大型视频-语言模型错误地描述了这个人在视频中正在煮饭,这就是一个内源性幻觉,因为它直接与视频内容相矛盾。如果模型生成了一些关于这个人在视频中穿着特定颜色围裙的信息,但视频中并没有显示或提及围裙,这就是一个外源性非事实幻觉,因为这部分内容无法通过视频来验证。

主要功能:

  • 幻觉检测:识别模型生成的与视频内容不一致的信息。
  • 分类幻觉:将幻觉分为内源性(与视频直接矛盾)和外源性(无法通过视频验证)两大类,并进一步细分为对象关系、时间、语义细节、外源性事实和非事实等子类别。

主要特点:

  1. 全面性:VideoHallucer是首个全面检测LVLMs幻觉的基准,提供了详细的幻觉分类和分析。
  2. 对抗性评估:通过策略性地构建基本问题和幻觉问题对,进行综合评估。
  3. 自我提升框架:提出了Self-PEP(Self-improvement with Predict-Explain-Predict),一个即插即用框架,通过解释过程增强模型对幻觉的抵抗力。

工作原理:

  • 数据构建:使用半自动流程构建包含基本问题和幻觉问题的数据集。
  • 评估方法:采用视觉问答(VQA)方法,将模型的回答与实际视频内容进行对比,以确定是否存在幻觉。
  • 自我提升:利用模型在事实检测上的优势,通过预测-解释-预测的循环来提高模型对幻觉的识别能力。

具体应用场景:

  • 视频内容审核:帮助内容审核人员识别和过滤由模型生成的不准确或误导性信息。
  • 教育和培训:在自动视频分析和总结中,确保提供的信息是准确和可靠的。
  • 视频问答系统:提高自动视频问答系统的准确性,减少错误回答。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论