当前位置：首页 > 优惠 >大语言模型>文章详情

全面基准测试工具VideoHallucer：专门用来检测和评估LVLMs在视频理解任务中的幻觉问题

推荐人：暴走AI| 商城: AI | 10个月前 (06-25)| 分类：大语言模型 | 热度：200 ℃

已关闭评论

北京通用人工智能研究院、通用人工智能国家重点实验室、北京大学和加州大学圣克鲁斯分校推出全面基准测试工具VideoHallucer，专门用来检测和评估LVLMs在视频理解任务中的幻觉问题。所谓“幻觉”，指的是这些模型在理解视频内容时，可能会生成与实际视频内容不符、无关或无意义的信息，这种现象可能会误导用户。VideoHallucer通过提供这些问题和正确答案的对，帮助研究人员和开发人员理解模型在哪些方面容易出错，并采取措施来改进模型，减少幻觉的发生。

项目主页：https://videohallucer.github.io
GitHub：https://github.com/patrick-tssn/VideoHallucer
数据：https://huggingface.co/datasets/bigai-nlco/VideoHallucer

例如，一个视频展示了一个人在厨房烹饪，视频内容是这个人在切菜。如果一个大型视频-语言模型错误地描述了这个人在视频中正在煮饭，这就是一个内源性幻觉，因为它直接与视频内容相矛盾。如果模型生成了一些关于这个人在视频中穿着特定颜色围裙的信息，但视频中并没有显示或提及围裙，这就是一个外源性非事实幻觉，因为这部分内容无法通过视频来验证。

主要功能：

幻觉检测：识别模型生成的与视频内容不一致的信息。
分类幻觉：将幻觉分为内源性（与视频直接矛盾）和外源性（无法通过视频验证）两大类，并进一步细分为对象关系、时间、语义细节、外源性事实和非事实等子类别。

主要特点：

全面性：VideoHallucer是首个全面检测LVLMs幻觉的基准，提供了详细的幻觉分类和分析。
对抗性评估：通过策略性地构建基本问题和幻觉问题对，进行综合评估。
自我提升框架：提出了Self-PEP（Self-improvement with Predict-Explain-Predict），一个即插即用框架，通过解释过程增强模型对幻觉的抵抗力。