爱荷华州立大学、纽约大学和亚利桑那大学的研究人员推出大型多模态数据集ARBORETUM,它是为了推动生物多样性应用的AI发展而设计的。论文还提到了基于ARBORETUM数据集训练的一些新模型,称为ARBORCLIP,这些模型在多种图像分类任务上展现出了优秀的性能。研究者希望这个数据集能够激发更多AI模型的发展,以支持从害虫控制策略、作物监测到全球生物多样性评估和环境保育等应用。
- 项目主页:https://baskargroup.github.io/Arboretum
- GitHub:https://github.com/baskargroup/Arboretum
- 数据:https://huggingface.co/datasets/ChihHsuan-Yang/Arboretum
例如,我们有一个庞大的图书馆,里面收藏了数以亿计的图片和文字描述,这些资料涵盖了从鸟类、昆虫到植物、真菌等各种各样的物种。这个数据集就像那个图书馆,但它是数字化的,专门用于帮助AI学习识别和理解不同生物的种类和特性。
主要功能:
- 生物多样性数据集:ARBORETUM是一个包含超过1.346亿张图片的数据集,这些图片涵盖了多个物种类别,如鸟类、昆虫、植物等。
主要特点:
- 规模巨大:它的规模超过了现有数据集一个数量级,是迄今为止最大的公共可访问生物多样性图像数据集。
- 多模态学习:数据集中的每张图片都有相应的文字描述,包括科学名称、分类细节和通用名称,这有助于AI模型更好地学习和理解。
- 准确性:数据由领域专家审核,确保了训练AI模型时的准确性。
工作原理:
- ARBORETUM数据集的图片和信息来源于iNaturalist社区科学平台,然后通过一系列数据整理和筛选流程,形成了一个“人工智能就绪”的数据集。研究者可以使用这个数据集来训练多模态的AI模型,比如通过CLIP(Contrastive Language–Image Pretraining)模型来实现对图片和文字的联合理解和分类。
具体应用场景:
- 生物多样性评估:AI可以利用这个数据集来识别和分类自然界中的物种,帮助科学家评估特定地区的生物多样性。
- 农业研究:在农业领域,AI可以通过识别作物病害或害虫,帮助农民优化作物管理策略。
- 环境保护:通过监测物种分布和变化,AI工具可以为环境保护和气候变化缓解提供数据支持。
0条评论