当前位置：首页 > 优惠 >大语言模型>文章详情

提升语言模型在视觉常识推理方面的能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-23)| 分类：大语言模型 | 热度：209 ℃

已关闭评论

提升语言模型在视觉常识推理方面的能力

AI

耶路撒冷希伯来大学和巴伊兰大学的研究人员发布论文，论文的主题是关于如何提升语言模型在视觉常识推理方面的能力。简单来说，就是教会计算机如何更好地理解图片，并结合文字信息来做出更准确的判断。论文中提出的方法通过在训练时使用图像和文本的配对数据，并在推理时生成多个图像并集成它们的预测结果，有效地提高了语言模型在视觉常识任务上的表现，并且这种方法还能保持甚至略微提高模型在传统NLP任务上的性能。

主要功能：

提升视觉常识：让计算机能够通过观察图片来理解物体的颜色、形状、大小等基本属性，并用这些信息来回答问题或做出推理。

主要特点：

多图像生成：系统可以根据输入的文字提示生成多个相关的图像。
混合预测概率：将生成的多个图像的预测结果结合起来，以提高推理的准确性。
晚融合层：在模型做出最终决策前，将视觉特征与文本输出结合，这样可以在需要时使用视觉信息，而在不需要时则专注于文本信息。

工作原理：

图像编码：首先，输入的图像通过预训练的多模态编码器进行编码，转换成与文本和图像共享的表示空间。
投影器：将编码的图像特征转换成伪文本标记嵌入，以便与文本提示结合。
晚融合层：在预测前，将视觉伪文本标记和文本标记结合起来，使用注意力机制让文本标记能够关注由视觉输入生成的伪文本标记。
集成多个图像：在推理过程中，根据输入文本生成多个图像，并为每个图像获取不同的预测结果，然后将这些结果进行加权平均，形成最终的输出。

具体应用场景：

视觉常识问答：比如，如果问“猫是否有条纹？”系统可以生成一张猫的图片，并根据图片判断答案。
阅读理解：在阅读包含图片的文章后，回答有关文章内容的问题。
辅助决策：在需要结合视觉信息做出决策的场景中，如自动驾驶车辆理解路标和周围环境。

视觉常识推理语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： MIRAGE：利用模型内部信息来确保大语言模型生成的答案能够准确引用支持文档

下一篇：阿里巴巴 Qwen 团队推出AUTOIF方法，提升大语言模型遵循指令的能力

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录