北京通用人工智能研究院、通用人工智能国家重点实验室、北京大学和加州大学圣克鲁斯分校推出全面基准测试工具VideoHallucer,专门用来检测和评估LVLMs在视频理解任务中的幻觉问题。所谓“幻觉”,指的是这些模型在理解视频内容时,可能会生成与实际视频内容不符、无关或无意义的信息,这种现象可能会误导用户。VideoHallucer通过提供这些问题和正确答案的对,帮助研究人员和开发人员理解模型在哪些方面容易出错,并采取措施来改进模型,减少幻觉的发生。
- 项目主页:https://videohallucer.github.io
- GitHub:https://github.com/patrick-tssn/VideoHallucer
- 数据:https://huggingface.co/datasets/bigai-nlco/VideoHallucer
例如,一个视频展示了一个人在厨房烹饪,视频内容是这个人在切菜。如果一个大型视频-语言模型错误地描述了这个人在视频中正在煮饭,这就是一个内源性幻觉,因为它直接与视频内容相矛盾。如果模型生成了一些关于这个人在视频中穿着特定颜色围裙的信息,但视频中并没有显示或提及围裙,这就是一个外源性非事实幻觉,因为这部分内容无法通过视频来验证。
主要功能:
- 幻觉检测:识别模型生成的与视频内容不一致的信息。
- 分类幻觉:将幻觉分为内源性(与视频直接矛盾)和外源性(无法通过视频验证)两大类,并进一步细分为对象关系、时间、语义细节、外源性事实和非事实等子类别。
主要特点:
- 全面性:VideoHallucer是首个全面检测LVLMs幻觉的基准,提供了详细的幻觉分类和分析。
- 对抗性评估:通过策略性地构建基本问题和幻觉问题对,进行综合评估。
- 自我提升框架:提出了Self-PEP(Self-improvement with Predict-Explain-Predict),一个即插即用框架,通过解释过程增强模型对幻觉的抵抗力。
工作原理:
- 数据构建:使用半自动流程构建包含基本问题和幻觉问题的数据集。
- 评估方法:采用视觉问答(VQA)方法,将模型的回答与实际视频内容进行对比,以确定是否存在幻觉。
- 自我提升:利用模型在事实检测上的优势,通过预测-解释-预测的循环来提高模型对幻觉的识别能力。
具体应用场景:
- 视频内容审核:帮助内容审核人员识别和过滤由模型生成的不准确或误导性信息。
- 教育和培训:在自动视频分析和总结中,确保提供的信息是准确和可靠的。
- 视频问答系统:提高自动视频问答系统的准确性,减少错误回答。
0条评论