当前位置：首页 > 优惠 >大语言模型>文章详情

Google Research发布论文介绍了一种新技术，旨在提升视觉-语言模型（VLMs）的推理能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-20)| 分类：大语言模型 | 热度：254 ℃

已关闭评论

Google Research发布论文介绍了一种新技术，旨在提升视觉-语言模型（VLMs）的推理能力

AI

Google Research发布论文介绍了一种新技术，旨在提升视觉-语言模型（VLMs）的推理能力。VLMs是一种人工智能模型，它能够理解和处理包含图像和文本的信息，例如图表、图形和图解。尽管VLMs在多模态任务上的表现越来越强，但它们的推理能力仍然有限，尤其是相对于大型语言模型（LLMs）而言。

主要功能和特点：

能力转移： 该技术能够将大型语言模型（LLMs）的推理能力转移到视觉-语言模型（VLMs）上，从而提高VLMs的性能。
性能提升： 在ChartQA等视觉问答任务上，应用该技术后，VLMs的性能达到了新的高度。
无需OCR系统： 该方法不需要使用光学字符识别（OCR）系统，就能在推理时间上保持与基线模型相同的水平。

工作原理：

改进图表表示： 通过使用改进的图表到表格的翻译任务继续预训练阶段，从而提高VLMs对图表的理解。
合成数据集： 构建了一个比原始训练集大20倍的数据集，以增强模型的一般推理能力和数值运算能力。
多任务损失微调： 使用多任务损失对模型进行微调，这种损失函数可以在不需要额外推理时间的情况下，提高模型的质量。

具体应用场景：

图表理解： 例如，分析统计图表中的趋势和模式，回答有关图表的问题，如“哪个季度的销售额最高？”
数据分析： 在处理包含数据的视觉表示时，如金融报告或科学研究中的图表，VLMs可以提供更深入的分析和理解。
教育和辅助工具： VLMs可以作为教育工具，帮助学生理解复杂的图表和数据集，或者作为辅助工具，帮助专业人士进行数据分析和解释。

谷歌

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：微软推出TnT-LLM框架：利用大语言模型（LLMs）来进行文本挖掘的工具

下一篇：谷歌推出新型机器学习架构和训练方法DiPaCo

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录