结合触觉、视觉和语言的多模态数据集TVL:用于训练和评估能够理解和生成触觉感受描述的模型

分类:大语言模型 | 热度:220 ℃

加州大学伯克利分校、Meta AI和德累斯顿工业大学的研究人员推出一个关于创建一个结合触觉、视觉和语言的多模态数据集,用于训练和评估能够理解和生成触觉感受描述的模型。这个数据集名为Touch-Vision-Language (TVL),它包含了44,000对视觉-触觉观察数据,其中10%由人类标注,90%由GPT-4V(一个大型语言模型)生成的伪标签。

项目主页:https://tactile-vlm.github.io

GitHub地址:https://github.com/Max-Fu/tvl

模型地址:https://huggingface.co/mlfu7/Touch-Vision-Language-Models

数据集地址:https://huggingface.co/datasets/mlfu7/Touch-Vision-Language-Dataset

结合触觉、视觉和语言的多模态数据集TVL:用于训练和评估能够理解和生成触觉感受描述的模型

主要功能:

  • 提供一个多模态数据集,用于训练模型以理解和生成触觉感受的描述。
  • 训练一个视觉-语言对齐的触觉编码器,以及一个能够基于视觉和触觉输入生成文本描述的模型。

主要特点:

  • 数据集结合了触觉、视觉和语言三种模态,这是在多模态学习领域中的一个创新。
  • 使用了人类标注和大型语言模型生成的伪标签,以解决触觉数据标注困难的问题。
  • 提出了一种新的触觉编码器训练方法,通过在三种模态之间进行成对对比学习,而不是仅仅将所有模态绑定到视觉。

工作原理:

  • 数据集的创建涉及到使用一个3D打印的手持设备,该设备配备了触觉传感器和摄像头,用于在自然环境中同步收集触觉和视觉数据。
  • 使用OpenCLIP(一个视觉-语言模型)的视觉和语言编码器来训练触觉编码器,使其与文本和视觉模态对齐。
  • 在训练过程中,触觉编码器通过对比学习,确保触觉数据与视觉和语言描述保持一致。
  • 然后,使用这个训练好的触觉编码器来微调一个大型语言模型(LLaMA2 7B),使其能够基于视觉和触觉观察生成触觉感受的文本描述。

具体应用场景:

  • 在机器人技术中,这个模型可以帮助机器人更好地理解和描述其通过触觉传感器感知到的环境,从而提高其操作和交互能力。
  • 在虚拟现实(VR)和增强现实(AR)领域,这个模型可以用于提供更丰富的触觉反馈,增强用户体验。
  • 在辅助技术中,例如为视障人士设计的设备,这个模型可以描述物体的触觉特性,帮助用户更好地理解周围环境。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论