大型多模态数据集ARBORETUM:为了推动生物多样性应用的AI发展而设计

分类:大语言模型 | 热度:133 ℃

爱荷华州立大学、纽约大学和亚利桑那大学的研究人员推出大型多模态数据集ARBORETUM,它是为了推动生物多样性应用的AI发展而设计的。论文还提到了基于ARBORETUM数据集训练的一些新模型,称为ARBORCLIP,这些模型在多种图像分类任务上展现出了优秀的性能。研究者希望这个数据集能够激发更多AI模型的发展,以支持从害虫控制策略、作物监测到全球生物多样性评估和环境保育等应用。

  • 项目主页:https://baskargroup.github.io/Arboretum
  • GitHub:https://github.com/baskargroup/Arboretum
  • 数据:https://huggingface.co/datasets/ChihHsuan-Yang/Arboretum

例如,我们有一个庞大的图书馆,里面收藏了数以亿计的图片和文字描述,这些资料涵盖了从鸟类、昆虫到植物、真菌等各种各样的物种。这个数据集就像那个图书馆,但它是数字化的,专门用于帮助AI学习识别和理解不同生物的种类和特性。

大型多模态数据集ARBORETUM:为了推动生物多样性应用的AI发展而设计

主要功能:

  • 生物多样性数据集:ARBORETUM是一个包含超过1.346亿张图片的数据集,这些图片涵盖了多个物种类别,如鸟类、昆虫、植物等。

主要特点:

  1. 规模巨大:它的规模超过了现有数据集一个数量级,是迄今为止最大的公共可访问生物多样性图像数据集。
  2. 多模态学习:数据集中的每张图片都有相应的文字描述,包括科学名称、分类细节和通用名称,这有助于AI模型更好地学习和理解。
  3. 准确性:数据由领域专家审核,确保了训练AI模型时的准确性。

工作原理:

  • ARBORETUM数据集的图片和信息来源于iNaturalist社区科学平台,然后通过一系列数据整理和筛选流程,形成了一个“人工智能就绪”的数据集。研究者可以使用这个数据集来训练多模态的AI模型,比如通过CLIP(Contrastive Language–Image Pretraining)模型来实现对图片和文字的联合理解和分类。

具体应用场景:

  • 生物多样性评估:AI可以利用这个数据集来识别和分类自然界中的物种,帮助科学家评估特定地区的生物多样性。
  • 农业研究:在农业领域,AI可以通过识别作物病害或害虫,帮助农民优化作物管理策略。
  • 环境保护:通过监测物种分布和变化,AI工具可以为环境保护和气候变化缓解提供数据支持。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论