华南理工大学、西湖大学、OPPO美国研究中心、中国科学院自动化研究所基础模型研究中心和阿卜杜拉国王科技大学的研究人员推出大规模数据集和基准测试框架Openstory++,它专注于实例感知的开放领域视觉叙事(Visual Storytelling)。简单来说,Openstory++旨在训练和评估人工智能模型,使其能够根据文本描述生成连贯、一致且具有叙事性的图像序列。
- 项目主页:https://openstorypp.github.io
- 数据:https://huggingface.co/datasets/MAPLE-WestLake-AIGC/OpenstoryPlusPlus
例如,我们要讲述一个关于勇敢的小狗在森林中冒险的故事。使用Openstory++数据集,AI模型可以学习如何根据文本描述生成一系列图像,这些图像展示了小狗在不同场景中的冒险,比如小狗在森林中奔跑、小狗与动物朋友们相遇,以及小狗最终找到宝藏的情景。每张图像都会精确地反映出故事的进展,并且保持角色和环境的一致性。
主要功能和特点:
- 大规模数据集:Openstory++包含了大约1亿个单图像数据和100万个带有叙事内容的图像序列数据,这些数据都进行了实例级别的注释。
- 实例感知:数据集中的图像都与文本紧密关联,确保了在生成图像时能够保持故事中各个实例(如人物、物体)的一致性。
- 多模态学习:结合了图像和文本信息,训练模型以更好地理解和生成视觉叙事。
- 自动化标注流程:使用先进的视觉-语言模型来生成描述性字幕,并通过大型语言模型来增强叙事连贯性。
工作原理:
- 关键帧提取:从视频内容中提取关键帧,这些帧捕捉了故事的关键部分。
- 字幕生成与优化:使用BLIP2模型自动生成基本字幕,然后利用大型语言模型(LLM)进一步提炼,确保叙事的连贯性。
- 实例遮罩制作:通过YOLO-World和DINOv2确定图像中每个实例的边界框,并使用EfficientViT-SAM模型创建像素级的实例遮罩,为视觉叙事任务提供精细的注释。
具体应用场景:
- 视觉叙事生成:例如,根据一个故事的文本描述,生成一系列连贯的图像来讲述这个故事。
- 多模态内容创作:在电影、游戏或动画制作中,辅助创作者快速生成故事板或概念艺术。
- 教育和培训:通过视觉叙事的方式,提高学习者对复杂概念或故事的理解。
总的来说,Openstory++通过提供丰富的实例级别注释和叙事连贯性,推动了AI在视觉叙事领域的研究和应用,使得机器能够更好地理解和生成复杂的视觉故事。
0条评论