加州大学伯克利分校、Meta AI和德累斯顿工业大学的研究人员推出一个关于创建一个结合触觉、视觉和语言的多模态数据集,用于训练和评估能够理解和生成触觉感受描述的模型。这个数据集名为Touch-Vision-Language (TVL),它包含了44,000对视觉-触觉观察数据,其中10%由人类标注,90%由GPT-4V(一个大型语言模型)生成的伪标签。
项目主页:https://tactile-vlm.github.io
GitHub地址:https://github.com/Max-Fu/tvl
模型地址:https://huggingface.co/mlfu7/Touch-Vision-Language-Models
数据集地址:https://huggingface.co/datasets/mlfu7/Touch-Vision-Language-Dataset
主要功能:
- 提供一个多模态数据集,用于训练模型以理解和生成触觉感受的描述。
- 训练一个视觉-语言对齐的触觉编码器,以及一个能够基于视觉和触觉输入生成文本描述的模型。
主要特点:
- 数据集结合了触觉、视觉和语言三种模态,这是在多模态学习领域中的一个创新。
- 使用了人类标注和大型语言模型生成的伪标签,以解决触觉数据标注困难的问题。
- 提出了一种新的触觉编码器训练方法,通过在三种模态之间进行成对对比学习,而不是仅仅将所有模态绑定到视觉。
工作原理:
- 数据集的创建涉及到使用一个3D打印的手持设备,该设备配备了触觉传感器和摄像头,用于在自然环境中同步收集触觉和视觉数据。
- 使用OpenCLIP(一个视觉-语言模型)的视觉和语言编码器来训练触觉编码器,使其与文本和视觉模态对齐。
- 在训练过程中,触觉编码器通过对比学习,确保触觉数据与视觉和语言描述保持一致。
- 然后,使用这个训练好的触觉编码器来微调一个大型语言模型(LLaMA2 7B),使其能够基于视觉和触觉观察生成触觉感受的文本描述。
具体应用场景:
- 在机器人技术中,这个模型可以帮助机器人更好地理解和描述其通过触觉传感器感知到的环境,从而提高其操作和交互能力。
- 在虚拟现实(VR)和增强现实(AR)领域,这个模型可以用于提供更丰富的触觉反馈,增强用户体验。
- 在辅助技术中,例如为视障人士设计的设备,这个模型可以描述物体的触觉特性,帮助用户更好地理解周围环境。
0条评论