当前位置：首页 > 优惠 >AI视频>文章详情

大型视频数据集Panda-70M：包含了7000万个视频片段，每个片段都配有高质量的文本描述

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-02)| 分类：AI视频 | 热度：441 ℃

已关闭评论

大型视频数据集Panda-70M：包含了7000万个视频片段，每个片段都配有高质量的文本描述

AI

Snap、加州大学默塞德分校、特伦托大学的研究人员发布论文介绍了一个名为Panda-70M的大型视频数据集，它包含了7000万个视频片段，每个片段都配有高质量的文本描述（即标题）。这个数据集的创建是为了提高视频理解和生成相关任务的性能，例如视频字幕生成、视频和文本检索以及文本驱动的视频生成。

项目主页：https://snap-research.github.io/Panda-70M

GitHub：https://github.com/snap-research/Panda-70M

主要功能：

提供了一个大规模的视频数据集，用于训练和评估多模态学习模型。
通过自动注释流程，利用视频描述、字幕和单个视频帧等多模态输入来生成视频的描述性标题。

主要特点：

数据集包含高分辨率、语义一致的视频片段，且标题平均长度为13.2个单词。
使用了多种跨模态教师模型来生成候选标题，并通过人工选择最佳标题来微调检索模型，以选择最准确的描述作为注释。
数据集的创建过程考虑了视频的语义一致性，确保视频片段在内容上是连贯的。

工作原理：

从HD-VILA-100M数据集中筛选出3.8M个高分辨率长视频。
设计了一个语义感知的视频分割算法，将长视频分割成语义一致的片段。
应用多个跨模态教师模型，如图像字幕模型和视觉问答模型，结合文本输入（如视频描述和字幕）来为每个视频片段生成多个候选标题。
收集一个包含10K视频的子集，人工选择每个视频的最佳标题，然后使用这个数据集来微调一个细粒度的视频到文本检索模型，该模型随后应用于整个数据集以选择最精确的标题作为注释。

具体应用场景：

视频字幕生成：自动为视频内容生成描述性标题，提高视频内容的可访问性和搜索性。
视频和文本检索：通过理解视频内容和相关文本，提高视频检索的准确性和相关性。
文本驱动的视频生成：利用文本描述作为输入，生成与之匹配的视频内容，这在电影制作、游戏开发和虚拟现实等领域具有潜在应用。

例如，假设我们想要为一个关于烹饪的视频自动生成一个描述性的标题。Panda-70M数据集可以通过分析视频内容和相关的文本信息（如视频描述和字幕），生成一个准确的标题，如“一个人在炉子上搅拌锅中的藜麦和鸡肉汤”。这样的标题不仅描述了视频的主要动作，还提供了足够的细节，使得观众能够快速了解视频内容。

Panda-70M 视频数据集

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：神经网络模型Hawk和Griffin：提高语言模型在处理长序列数据时的效率

下一篇：北大-兔展AIGC联合实验室共同发起Open-Sora计划，目标是复现OpenAI的Sora模型

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录