当前位置：首页 > 优惠 >大语言模型>文章详情

视觉-语言数据集DOCCI：旨在提高文本到图像（T2I）和图像到文本（I2T）研究的质量和深度，通过提供详细的人类标注的英文描述来增强模型学习的能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-05-02)| 分类：大语言模型 | 热度：251 ℃

已关闭评论

视觉-语言数据集DOCCI：旨在提高文本到图像（T2I）和图像到文本（I2T）研究的质量和深度，通过提供详细的人类标注的英文描述来增强模型学习的能力

谷歌、普林斯顿大学和北卡罗来纳大学教堂山分校的研究人员推出新的视觉-语言数据集，名为“DOCCI”（Descriptions of Connected and Contrasting Images）。这个数据集旨在提高文本到图像（T2I）和图像到文本（I2T）研究的质量和深度，通过提供详细的人类标注的英文描述来增强模型学习的能力。

例如，你想要让电脑根据一段详细的文字描述生成一张图片，或者给定一张图片，让电脑写出它所看到的内容。要做到这一点，电脑需要非常精确地理解文字和图像之间的联系。目前，尽管有些模型已经相当不错，但它们在处理一些细节方面仍然存在问题，比如正确地渲染文本、计算物体数量或者处理空间关系。为了帮助改进这些模型，研究人员创建了DOCCI数据集，它包含了15,000张图片，每张图片都有一段详细的文字描述，这些描述都是由人编写的，用来捕捉图像中的各种细节和挑战。

主要功能：

文本到图像生成：根据详细的文字描述生成图片。
图像到文本生成：给定一张图片，生成详细的文字描述。

主要特点：

长描述：每张图片的文字描述平均有136个单词，远长于一般的数据集。
详细标注：描述中包含了物体、属性、空间关系、文本渲染、计数和世界知识等详细信息。
挑战类型覆盖：数据集中的描述覆盖了多种挑战类型，如颜色、材料、形状、大小、状态、计数、场景/视角/照明、空间关系、文本渲染和世界知识等。

工作原理：

图像收集：由研究者Jason Baldridge及其家人拍摄，包含了多种场景和物体。
三阶段标注过程：
- 第一阶段：提取关键信息，编写简短描述。
- 第二阶段：将简短描述合并成详细的自然语言描述。
- 第三阶段：添加更多细节，如颜色、纹理和元素间的关系，进一步完善描述。
质量控制：通过多轮审查和反馈，确保描述的质量和一致性。