来自悉尼科技大学和浙江大学的研究人员推出大规模真实用户文本到视频提示数据集VidProM。VidProM是一个强大的资源,它不仅为视频内容创作者提供了丰富的素材,也为研究人员提供了一个宝贵的工具,用于推动文本到视频生成技术的发展。
GitHub:https://github.com/WangWenhao0716/VidProM
数据集地址:https://huggingface.co/datasets/WenhaoWang/VidProM/tree/main
论文地址:https://arxiv.org/abs/2403.06098
主要功能和特点:
- 大规模数据集: VidProM包含了166万个独特的文本到视频提示和约669万个由四种最先进的扩散模型生成的视频。
- 真实用户生成的提示: 数据集中的提示来自真实的用户,这意味着它们反映了人们在创建视频时的真实偏好和需求。
- 多样化的视频内容: 通过不同的扩散模型生成的视频覆盖了广泛的主题和风格,从自然风光到科幻场景,从动物到城市景观。
- NSFW(Not Safe For Work)概率: 每个提示都附带了不适宜工作场合内容的概率评分,帮助用户筛选内容。
工作原理:
- 收集和处理数据: 通过从官方Pika Discord频道收集用户输入的提示,并使用OpenAI的文本嵌入模型对这些提示进行嵌入处理。
- 视频生成: 使用四种不同的扩散模型根据文本提示生成视频,并将这些视频纳入数据集。
- 筛选和分析: 对数据集进行筛选,移除语义上过于相似的提示,确保数据集的多样性。
具体应用场景:
- 视频内容创作: 视频制作者可以使用VidProM来生成创意视频片段,作为电影、广告或社交媒体内容的一部分。
- 研究和开发: 研究人员可以利用这个数据集来开发和评估文本到视频的生成模型,以及进行提示工程和视频内容检测的研究。
- 多模态学习: VidProM可以用于多模态学习任务,如视频文本检索和视频字幕生成,帮助机器更好地理解和生成与视频内容相关的文本。
0条评论