大型视频数据集Panda-70M:包含了7000万个视频片段,每个片段都配有高质量的文本描述

分类:AI视频 | 热度:237 ℃

Snap、加州大学默塞德分校、特伦托大学的研究人员发布论文介绍了一个名为Panda-70M的大型视频数据集,它包含了7000万个视频片段,每个片段都配有高质量的文本描述(即标题)。这个数据集的创建是为了提高视频理解和生成相关任务的性能,例如视频字幕生成、视频和文本检索以及文本驱动的视频生成。

项目主页:https://snap-research.github.io/Panda-70M

GitHub:https://github.com/snap-research/Panda-70M

主要功能:

  • 提供了一个大规模的视频数据集,用于训练和评估多模态学习模型。
  • 通过自动注释流程,利用视频描述、字幕和单个视频帧等多模态输入来生成视频的描述性标题。

主要特点:

  • 数据集包含高分辨率、语义一致的视频片段,且标题平均长度为13.2个单词。
  • 使用了多种跨模态教师模型来生成候选标题,并通过人工选择最佳标题来微调检索模型,以选择最准确的描述作为注释。
  • 数据集的创建过程考虑了视频的语义一致性,确保视频片段在内容上是连贯的。

工作原理:

  1. 从HD-VILA-100M数据集中筛选出3.8M个高分辨率长视频。
  2. 设计了一个语义感知的视频分割算法,将长视频分割成语义一致的片段。
  3. 应用多个跨模态教师模型,如图像字幕模型和视觉问答模型,结合文本输入(如视频描述和字幕)来为每个视频片段生成多个候选标题。
  4. 收集一个包含10K视频的子集,人工选择每个视频的最佳标题,然后使用这个数据集来微调一个细粒度的视频到文本检索模型,该模型随后应用于整个数据集以选择最精确的标题作为注释。

具体应用场景:

  • 视频字幕生成:自动为视频内容生成描述性标题,提高视频内容的可访问性和搜索性。
  • 视频和文本检索:通过理解视频内容和相关文本,提高视频检索的准确性和相关性。
  • 文本驱动的视频生成:利用文本描述作为输入,生成与之匹配的视频内容,这在电影制作、游戏开发和虚拟现实等领域具有潜在应用。

例如,假设我们想要为一个关于烹饪的视频自动生成一个描述性的标题。Panda-70M数据集可以通过分析视频内容和相关的文本信息(如视频描述和字幕),生成一个准确的标题,如“一个人在炉子上搅拌锅中的藜麦和鸡肉汤”。这样的标题不仅描述了视频的主要动作,还提供了足够的细节,使得观众能够快速了解视频内容。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论