上海人工智能实验室、新加坡国立大学、香港大学、威斯康星大学麦迪逊分校和加州大学圣地亚哥分校的研究人员推出T2VHE协议,重新思考文本到视频(Text-to-Video,简称T2V)模型的人类评估协议,目的是提高评估的可靠性、可重复性和实用性。随着T2V技术的发展,比如Gen2、Pika和Sora等模型的出现,如何有效地评估这些模型成为了一个挑战。虽然自动评估方法有其局限性,人工评估被认为是一种更优的方法,但现有的人工评估协议存在一些问题。研究团队将开源T2VHE协议的全部设置,包括协议流程、动态评估组件的细节和注释界面代码,以便社区能够基于现有评估建立更精细的人类评估协议。
- 论文:https://arxiv.org/abs/2406.08845
- GitHub:https://github.com/ztlmememe/T2VHE
例如,你是一个视频制作者,想要评估一个T2V模型来自动生成视频。使用T2VHE协议,你可以得到一个标准化的评估结果,了解模型在生成视频时的表现,比如视频是否流畅、是否与描述文本高度一致等。通过这个评估,你可以决定这个模型是否适合你的视频制作需求。
主要功能:
- 标准化评估:提出了一个全面的、标准化的评估协议,称为Text-to-Video Human Evaluation (T2VHE),用于评估T2V模型。
主要特点:
- 明确定义的指标:T2VHE协议包括了明确定义的评估指标,涵盖了视频质量、时间质量、运动质量和文本对齐等多个方面。
- 全面的注释者培训:提供了详细的指导和示例,帮助注释者更好地理解评估指标。
- 动态评估模块:通过自动评分结果优化评估效率,减少了注释成本,同时确保评估结果的有效性。
工作原理:
- 比较基础的方法:T2VHE采用了基于比较的方法,注释者需要在多个视频之间进行比较,选择表现更好的视频。
- 动态评估组件:通过自动评分结果对视频对进行预排序,并在动态注释阶段根据模型分数的差异决定是否对未注释的视频对进行注释。
具体应用场景:
- T2V模型开发:帮助开发者和研究者理解T2V模型的性能,指导模型的开发和改进。
- 模型选择:公众和专业人士可以利用这个协议来选择适合自己需求的T2V模型。
0条评论