当前位置：首页 > 优惠 >大语言模型>文章详情

数据集Recap-DataComp：使用LLaMA-3重新描述网络上的数十亿图像

推荐人：暴走AI| 商城: AI | 10个月前 (06-16)| 分类：大语言模型 | 热度：161 ℃

已关闭评论

数据集Recap-DataComp：使用LLaMA-3重新描述网络上的数十亿图像

AI

加州大学圣克鲁斯分校、爱丁堡大学、 JHU、 Adobe、和UT 奥斯汀的研究人员发布论文，论文的主题是关于如何使用一个名为LLaMA-3的先进语言模型来重新描述（recaption）网络上的数十亿图像，目的是改善图像与其文字描述之间的语义对齐，并提高图像生成模型的质量。

项目主页：https://www.haqtu.me/Recap-Datacomp-1B
GitHub：https://github.com/UCSC-VLAA/Recap-DataComp-1B
数据：https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B
模型：https://huggingface.co/tennant/llava-llama-3-8b-hqedit/tree/main

例如，我们有一张咖啡馆的图片，原始的描述可能非常简单，比如“一个咖啡馆”。使用LLaMA-3模型重新描述后，我们得到的可能是“一个有着黄色和绿色外观的咖啡馆，有一个大的玻璃窗，窗框是红色的，上方的招牌写着‘Cafe Van Gogh’……”，这个新的描述更加详细和生动，能够更好地捕捉图像的内容和氛围。

主要功能：

图像重新描述：使用LLaMA-3模型对网络上抓取的图像进行更丰富、更准确的文字描述。
数据集构建：创建了一个名为Recap-DataComp-1B的新数据集，包含约13亿张图像的改进描述。

主要特点：

大规模处理：能够在亿级规模的图像数据上进行操作。
开源：使用了开源的LLaMA-3模型，使得整个项目对社区更加透明和可访问。
质量提升：通过重新描述，提高了图像描述的质量和与图像的对齐度。

工作原理：

模型训练：首先，使用LLaMA-3模型对一个名为LLaVA的图像描述模型进行微调。
图像描述生成：然后，利用训练好的模型对DataComp-1B数据集中的图像生成新的描述。
数据集创建：将这些新生成的描述与原始图像结合，形成一个新的数据集Recap-DataComp-1B。

具体应用场景：

图像检索：改进的图像描述可以用于提高图像检索系统的准确性，例如在搜索引擎中通过文本找到相关图像。
图像生成：在文本到图像的生成模型中，使用这些高质量的描述可以生成与文本描述更加匹配的图像。
模型训练：Recap-DataComp-1B数据集可以用于训练更先进的视觉-语言模型，提高模型在多种任务上的性能。

Recap-DataComp

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：能够理解多种信息形式（比如文本、图像、视频、声音等）的全能型人工智能模型MiCo

下一篇：偏好优化算法DiscoPOP：用于改善和控制大型语言模型输出的质量，使其更好地符合人类的价值观和偏好

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录