香港大学、香港中文大学和华为诺亚方舟实验室的研究人员推出全新基准测试工具T2V-CompBench,它专门用于评估文本到视频(Text-to-Video, T2V)生成模型的性能。T2V模型需要根据这个描述生成一段视频。但T2V-CompBench不仅测试模型能否生成视频,更重要的是测试它是否能够准确地组合多个对象、属性、动作和运动到视频中。
- 项目主页:https://t2v-compbench.github.io
- GitHub:https://github.com/KaiyueSun98/T2V-CompBench
例如,你想要生成一个视频,描述是“夜晚,一只蓝色的鸟在明亮的月亮下飞翔”。T2V模型需要理解“夜晚”、“蓝色”、“鸟”、“月亮”和“飞翔”这些元素,并在视频中准确地表现出来。T2V-CompBench会评估生成的视频是否在每个帧中都包含了这些元素,比如鸟是否是蓝色的,月亮是否明亮,以及鸟的动作是否符合飞翔的描述。此外,它还会评估这些元素在视频序列中的动态变化是否连贯和符合逻辑。
主要功能
- 多类别评估:T2V-CompBench包含七个类别,分别是一致属性绑定、动态属性绑定、空间关系、动作绑定、对象交互和生成性数值。
- 多指标评估:提供了基于大型语言模型(MLLM)的评估指标、基于检测的评估指标和基于追踪的评估指标,以全面反映T2V生成质量。
主要特点
- 综合性:首次系统性地研究了文本到视频生成的组合性问题。
- 多维度评估:不仅评估视频质量,还评估文本与视频的对齐度、对象间的动态交互等。
- 大规模文本提示:拥有700个文本提示,覆盖上述七个类别。
工作原理
- 文本提示生成:使用GPT-4生成包含特定对象类别、属性、动作等信息的文本提示。
- 视频生成:T2V模型根据文本提示生成视频。
- 评估指标设计:根据视频内容和文本提示,使用不同的MLLM、检测和追踪技术来评估视频的生成质量。
- 人类评估相关性验证:通过与人类评估的相关性来验证评估指标的有效性。
具体应用场景
- 视频内容创作:帮助视频制作者快速生成视频草图或概念验证。
- 多模态AI研究:为研究人员提供一个标准化的测试工具,以推进文本到视频生成技术的发展。
- 自动视频摘要:根据文本描述自动生成视频摘要或亮点。
- 教育和培训:生成教学材料或模拟场景,用于教育和专业培训。
0条评论