当前位置：首页 > 优惠 >大语言模型>文章详情

大型多模态数据集ARBORETUM：为了推动生物多样性应用的AI发展而设计

推荐人：暴走AI| 商城: AI | 1年前 (2024-07-01)| 分类：大语言模型 | 热度：353 ℃

已关闭评论

爱荷华州立大学、纽约大学和亚利桑那大学的研究人员推出大型多模态数据集ARBORETUM，它是为了推动生物多样性应用的AI发展而设计的。论文还提到了基于ARBORETUM数据集训练的一些新模型，称为ARBORCLIP，这些模型在多种图像分类任务上展现出了优秀的性能。研究者希望这个数据集能够激发更多AI模型的发展，以支持从害虫控制策略、作物监测到全球生物多样性评估和环境保育等应用。

项目主页：https://baskargroup.github.io/Arboretum
GitHub：https://github.com/baskargroup/Arboretum
数据：https://huggingface.co/datasets/ChihHsuan-Yang/Arboretum

例如，我们有一个庞大的图书馆，里面收藏了数以亿计的图片和文字描述，这些资料涵盖了从鸟类、昆虫到植物、真菌等各种各样的物种。这个数据集就像那个图书馆，但它是数字化的，专门用于帮助AI学习识别和理解不同生物的种类和特性。

大型多模态数据集ARBORETUM：为了推动生物多样性应用的AI发展而设计

主要功能：

生物多样性数据集：ARBORETUM是一个包含超过1.346亿张图片的数据集，这些图片涵盖了多个物种类别，如鸟类、昆虫、植物等。

主要特点：

规模巨大：它的规模超过了现有数据集一个数量级，是迄今为止最大的公共可访问生物多样性图像数据集。
多模态学习：数据集中的每张图片都有相应的文字描述，包括科学名称、分类细节和通用名称，这有助于AI模型更好地学习和理解。
准确性：数据由领域专家审核，确保了训练AI模型时的准确性。

工作原理：

ARBORETUM数据集的图片和信息来源于iNaturalist社区科学平台，然后通过一系列数据整理和筛选流程，形成了一个“人工智能就绪”的数据集。研究者可以使用这个数据集来训练多模态的AI模型，比如通过CLIP（Contrastive Language–Image Pretraining）模型来实现对图片和文字的联合理解和分类。