当前位置：首页 > 优惠 >AI视频>文章详情

高质量视频-文本数据集Vript以及基于该数据集训练出的视频字幕生成模型Vriptor

推荐人：暴走AI| 商城: AI | 10个月前 (06-11)| 分类：AI视频 | 热度：215 ℃

已关闭评论

高质量视频-文本数据集Vript以及基于该数据集训练出的视频字幕生成模型Vriptor

AI

上海交通大学、北京航空航天大学和小红书公司推出高质量视频-文本数据集Vript以及基于该数据集训练出的视频字幕生成模型Vriptor。Vript数据集包含12K高分辨率视频，这些视频被精心注释，提供了详细、密集且类似剧本的字幕，覆盖超过42万个片段。与以往的视频-文本数据集相比，Vript的每个片段都有大约145个词的字幕，长度是其他数据集的10倍以上。

GitHub：https://github.com/mutonix/Vript
Demo：https://huggingface.co/spaces/Mutonix/Vriptor-stllm

例如，有一个旅游视频博客，记录了一个人从准备行李到访问多个目的地的整个过程。使用Vript数据集，可以为视频中的每个场景生成详细的字幕，如“一个人在打包行李，镜头缓慢拉远展示整个房间”，而不是简单的“一个人在打包”。Vriptor模型能够根据这些详细的字幕信息，生成更加丰富和准确的视频描述。

主要功能：

Vript数据集：提供了详细的视频字幕，不仅包括视频内容，还有镜头操作，如拍摄类型（中景、特写等）和镜头运动（平移、倾斜等）。
Vriptor模型：利用Vript数据集训练，能够生成密集且详细的长视频字幕，性能在开源模型中名列前茅。

主要特点：

高密度字幕：Vript的字幕比大多数现有数据集长得多，提供了更为丰富和详细的视频描述。
视频脚本化：通过记录镜头操作，Vript将视频字幕提升到了视频脚本的级别。
高性能模型：Vriptor在视频字幕生成方面表现出色，能够与GPT-4V等模型相媲美。

工作原理：

Vript数据集的构建采用了类似于视频剧本的格式，将视频分割成多个场景，并为每个场景提供详细的描述和镜头说明。
Vriptor模型通过三种训练范式与视频模态对齐更多的文本，包括视频剧本对齐、旁白转录和视频时间戳引入。

具体应用场景：

视频内容理解：Vriptor可以用于理解视频内容，生成详细的视频字幕，适用于视频内容分析和索引。
视频生成：利用Vriptor，可以根据剧本或详细描述生成视频内容，用于娱乐、教育或宣传等领域。
视频问答系统：Vriptor可以集成到视频问答系统中，通过理解视频内容来回答有关视频的具体问题。

Vript Vriptor

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：谷歌推出大语言模型Tx-LLM：专门为药物治疗领域设计

下一篇： IllumiNeRF：能够在不需要复杂的逆向渲染过程的情况下，实现对3D物体的重新照明

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录