复旦大学和上海人工智能科学研究院的研究人员推出大规模文本到视频生成数据集VIDGEN-1M,这个数据集是为了提升文本到视频模型的训练效果而特别设计的,它通过精细的筛选和标注过程,提供了高质量的视频和详细的文本描述。例如,你想要制作一个关于海滩日落的视频,你可以给模型一个文本描述,比如“一个男人戴着红帽子,穿着灰色衬衫站在海滩上,面对着摄像机讲话,平静的海面只有小波浪,水中可以看到小石头,太阳正在晴朗的天空中落山,天空中有少许云朵”。使用VIDGEN-1M数据集训练的模型能够理解这个描述,并生成与之对应的视频内容。
- 项目主页:https://sais-fuxi.github.io/projects/vidgen-1m
- GitHub:https://github.com/SAIS-FUXI/VidGen
- 模型地址:https://huggingface.co/Fudan-FUXI/VIDGEN-v1.0
主要功能:
- 提供高质量的视频和文本配对:数据集中的视频和文本描述具有很高的时间一致性,这意味着视频内容和文本描述能够很好地对应起来。
- 支持文本到视频模型的训练:VIDGEN-1M数据集可以用于训练能够根据文本描述生成视频的模型。
主要特点:
- 大规模:数据集包含100万个视频片段,每个视频片段都配有详尽的描述性合成文本(Descriptive Synthetic Captions,DSC)。
- 高时间一致性:视频片段在场景转换检测上做了优化,以减少模型训练时的不稳定性。
- 多阶段数据筛选:通过粗糙筛选、标注和精细筛选三个阶段来确保数据集的质量。
工作原理:
- 粗糙筛选:使用现有模型对视频进行场景分割和标注,然后基于这些标签筛选和采样视频,以创建一个粗略的数据集。
- 标注:使用视频标注模型为视频生成描述性文本。
- 精细筛选:使用大型语言模型(LLM)来优化视频文本,纠正粗糙筛选阶段的错误。
具体应用场景:
- 视频内容生成:根据给定的文本描述自动生成视频内容,适用于娱乐、教育、广告等行业。
- 数据集训练:VIDGEN-1M数据集可以用于训练和评估文本到视频生成模型,提高模型的性能。
0条评论