上海交通大学和上海人工智能实验室的研究人员推出自动足球比赛解说生成模型MatchTime,目的是提升观众观看体验。足球作为全球最受欢迎的运动之一,拥有超过35亿的观众。精彩的解说能够为观众提供背景信息、分析和情感上的激动,但制作吸引人且富有洞察力的解说需要相当的专业知识,并且可能资源密集。随着人工智能,尤其是基础视觉-语言模型的发展,自动化内容创作的各个方面成为可能。
- 项目主页:https://haoningwu3639.github.io/MatchTime
- GitHub:https://github.com/jyrao/MatchTime
例如,有一场足球比赛,其中一队通过精妙的配合打进了一粒进球。现有的自动解说系统可能因为视频和解说文本的不对齐,无法准确描述这一精彩瞬间。而MatchVoice模型能够通过分析视频内容和对应的解说文本,生成准确描述这一进球过程的解说,比如“[球员名]([球队名])在禁区内接到传球,一脚精准的射门,将比分改写为2:0。”这样的解说不仅准确,还能增强观众的观看体验。
主要功能和特点:
- 数据集创建与校正:研究者们手动为49场足球比赛的视频文本添加了时间戳,建立了一个更稳健的足球比赛解说生成基准,称为SNCaption-test-align。
- 多模态时间对齐流程:提出了一个自动校正和筛选现有数据集的流程,创建了一个更高质量的足球比赛解说数据集,称为MatchTime。
- 自动解说生成模型:基于精选的数据集,训练了一个名为MatchVoice的自动解说生成模型。通过广泛的实验和消融研究,证明了对齐流程的有效性,以及在精选数据集上训练的模型在解说生成任务上达到了最先进的性能。
工作原理:
- 问题识别:发现现有数据集中视频内容和文本解说之间存在普遍的不对齐问题。
- 手动校正:为SoccerNet-Caption测试集中的49场比赛手动校正解说文本的时间戳。
- 自动对齐流程:使用WhisperX从背景音频中提取叙述文本和对应时间戳,然后通过LLaMA-3模型将这些叙述文本总结为事件描述,并预测新的时间戳。
- 细粒度时间对齐:训练一个多模态时间对齐模型,使用对比学习进一步优化文本解说与视频帧的对齐。
具体应用场景:
- 足球比赛直播:自动生成与比赛实时同步的解说文本,为直播提供专业解说。
- 赛事回顾:为比赛录像添加解说,增强观众的观看体验。
- 教育和训练:帮助足球教练和球员分析比赛,提供战术和技术分析。
0条评论