上海交通大学、 北京航空航天大学和小红书公司推出高质量视频-文本数据集Vript以及基于该数据集训练出的视频字幕生成模型Vriptor。Vript数据集包含12K高分辨率视频,这些视频被精心注释,提供了详细、密集且类似剧本的字幕,覆盖超过42万个片段。与以往的视频-文本数据集相比,Vript的每个片段都有大约145个词的字幕,长度是其他数据集的10倍以上。
- GitHub:https://github.com/mutonix/Vript
- Demo:https://huggingface.co/spaces/Mutonix/Vriptor-stllm
例如,有一个旅游视频博客,记录了一个人从准备行李到访问多个目的地的整个过程。使用Vript数据集,可以为视频中的每个场景生成详细的字幕,如“一个人在打包行李,镜头缓慢拉远展示整个房间”,而不是简单的“一个人在打包”。Vriptor模型能够根据这些详细的字幕信息,生成更加丰富和准确的视频描述。
主要功能:
- Vript数据集:提供了详细的视频字幕,不仅包括视频内容,还有镜头操作,如拍摄类型(中景、特写等)和镜头运动(平移、倾斜等)。
- Vriptor模型:利用Vript数据集训练,能够生成密集且详细的长视频字幕,性能在开源模型中名列前茅。
主要特点:
- 高密度字幕:Vript的字幕比大多数现有数据集长得多,提供了更为丰富和详细的视频描述。
- 视频脚本化:通过记录镜头操作,Vript将视频字幕提升到了视频脚本的级别。
- 高性能模型:Vriptor在视频字幕生成方面表现出色,能够与GPT-4V等模型相媲美。
工作原理:
- Vript数据集的构建采用了类似于视频剧本的格式,将视频分割成多个场景,并为每个场景提供详细的描述和镜头说明。
- Vriptor模型通过三种训练范式与视频模态对齐更多的文本,包括视频剧本对齐、旁白转录和视频时间戳引入。
具体应用场景:
- 视频内容理解:Vriptor可以用于理解视频内容,生成详细的视频字幕,适用于视频内容分析和索引。
- 视频生成:利用Vriptor,可以根据剧本或详细描述生成视频内容,用于娱乐、教育或宣传等领域。
- 视频问答系统:Vriptor可以集成到视频问答系统中,通过理解视频内容来回答有关视频的具体问题。
0条评论