当前位置：首页 > 优惠 >AI绘画>文章详情

大规模数据集和基准测试框架Openstory++：专注于实例感知的开放领域视觉叙事（Visual Storytelling）

推荐人：暴走AI| 商城: AI | 9个月前 (08-10)| 分类：AI绘画 | 热度：252 ℃

已关闭评论

大规模数据集和基准测试框架Openstory++：专注于实例感知的开放领域视觉叙事（Visual Storytelling）

华南理工大学、西湖大学、OPPO美国研究中心、中国科学院自动化研究所基础模型研究中心和阿卜杜拉国王科技大学的研究人员推出大规模数据集和基准测试框架Openstory++，它专注于实例感知的开放领域视觉叙事（Visual Storytelling）。简单来说，Openstory++旨在训练和评估人工智能模型，使其能够根据文本描述生成连贯、一致且具有叙事性的图像序列。

项目主页：https://openstorypp.github.io
数据：https://huggingface.co/datasets/MAPLE-WestLake-AIGC/OpenstoryPlusPlus

例如，我们要讲述一个关于勇敢的小狗在森林中冒险的故事。使用Openstory++数据集，AI模型可以学习如何根据文本描述生成一系列图像，这些图像展示了小狗在不同场景中的冒险，比如小狗在森林中奔跑、小狗与动物朋友们相遇，以及小狗最终找到宝藏的情景。每张图像都会精确地反映出故事的进展，并且保持角色和环境的一致性。

主要功能和特点：

大规模数据集：Openstory++包含了大约1亿个单图像数据和100万个带有叙事内容的图像序列数据，这些数据都进行了实例级别的注释。
实例感知：数据集中的图像都与文本紧密关联，确保了在生成图像时能够保持故事中各个实例（如人物、物体）的一致性。
多模态学习：结合了图像和文本信息，训练模型以更好地理解和生成视觉叙事。
自动化标注流程：使用先进的视觉-语言模型来生成描述性字幕，并通过大型语言模型来增强叙事连贯性。

工作原理：

关键帧提取：从视频内容中提取关键帧，这些帧捕捉了故事的关键部分。
字幕生成与优化：使用BLIP2模型自动生成基本字幕，然后利用大型语言模型（LLM）进一步提炼，确保叙事的连贯性。
实例遮罩制作：通过YOLO-World和DINOv2确定图像中每个实例的边界框，并使用EfficientViT-SAM模型创建像素级的实例遮罩，为视觉叙事任务提供精细的注释。