高质量视频-文本数据集Vript以及基于该数据集训练出的视频字幕生成模型Vriptor

分类:AI视频 | 热度:55 ℃

上海交通大学、 北京航空航天大学和小红书公司推出高质量视频-文本数据集Vript以及基于该数据集训练出的视频字幕生成模型Vriptor。Vript数据集包含12K高分辨率视频,这些视频被精心注释,提供了详细、密集且类似剧本的字幕,覆盖超过42万个片段。与以往的视频-文本数据集相比,Vript的每个片段都有大约145个词的字幕,长度是其他数据集的10倍以上。

  • GitHub:https://github.com/mutonix/Vript
  • Demo:https://huggingface.co/spaces/Mutonix/Vriptor-stllm

例如,有一个旅游视频博客,记录了一个人从准备行李到访问多个目的地的整个过程。使用Vript数据集,可以为视频中的每个场景生成详细的字幕,如“一个人在打包行李,镜头缓慢拉远展示整个房间”,而不是简单的“一个人在打包”。Vriptor模型能够根据这些详细的字幕信息,生成更加丰富和准确的视频描述。

主要功能:

  • Vript数据集:提供了详细的视频字幕,不仅包括视频内容,还有镜头操作,如拍摄类型(中景、特写等)和镜头运动(平移、倾斜等)。
  • Vriptor模型:利用Vript数据集训练,能够生成密集且详细的长视频字幕,性能在开源模型中名列前茅。

主要特点:

  • 高密度字幕:Vript的字幕比大多数现有数据集长得多,提供了更为丰富和详细的视频描述。
  • 视频脚本化:通过记录镜头操作,Vript将视频字幕提升到了视频脚本的级别。
  • 高性能模型:Vriptor在视频字幕生成方面表现出色,能够与GPT-4V等模型相媲美。

工作原理:

  • Vript数据集的构建采用了类似于视频剧本的格式,将视频分割成多个场景,并为每个场景提供详细的描述和镜头说明。
  • Vriptor模型通过三种训练范式与视频模态对齐更多的文本,包括视频剧本对齐、旁白转录和视频时间戳引入。

具体应用场景:

  • 视频内容理解:Vriptor可以用于理解视频内容,生成详细的视频字幕,适用于视频内容分析和索引。
  • 视频生成:利用Vriptor,可以根据剧本或详细描述生成视频内容,用于娱乐、教育或宣传等领域。
  • 视频问答系统:Vriptor可以集成到视频问答系统中,通过理解视频内容来回答有关视频的具体问题。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论