当前位置：首页 > 优惠 >大语言模型>文章详情

如何提高多模态大语言模型（MLLMs）推理（inference）效率

推荐人：暴走AI| 商城: AI | 2年前 (2024-04-16)| 分类：大语言模型 | 热度：483 ℃

已关闭评论

高通发布论文探讨了如何提高多模态大语言模型（MLLMs）推理（inference）效率的问题。MLLMs是一类能够处理包括文本和图像在内的多种模态数据的模型，它们在现实世界中非常有用，因为我们的数据通常包含多种形式，如文本、图片等。然而，这些模型在处理数据时往往速度较慢，因为它们需要逐个生成令牌（tokens），并且受到内存带宽的限制。

主要功能和特点：

推理加速： 论文提出了一种名为推测解码（Speculative Decoding，简称SPD）的技术，用于加速MLLMs的推理过程。通过使用一个较小的草案模型（draft model）来生成多个未来的令牌，然后由目标模型（target LLM）并行验证这些令牌，从而提高了推理速度。
无需图像令牌： 研究表明，即使不使用图像令牌，仅使用文本令牌的模型也可以作为草案模型，这样可以避免处理图像令牌及其相关组件的需要。
内存带宽加速： 实验表明，使用115M参数的语言模型作为草案模型，可以实现最高达2.37倍的内存带宽加速。

工作原理： 推测解码（SPD）的工作原理是使用一个较小的草案模型来生成一系列令牌，然后通过目标大型语言模型（LLM）来验证这些令牌。具体来说，给定一个输入文本，草案模型会生成一系列预测令牌，然后目标模型会通过一次调用来验证这些令牌。如果预测令牌被拒绝，那么就会从剩余分布中重新采样一个令牌。

具体应用场景：

图像问答（Image QA）： 在LLaVA Instruct 150K数据集上进行图像问答任务，用户可以提供一张图片和一个或多个问题，模型需要生成详细的回答。
图像描述（Image Captioning）： 在COCO数据集上进行图像描述任务，模型需要根据提供的图片生成描述性文本。
科学问答（Science QA）： 在Science QA数据集上进行科学问题回答任务，这通常涉及到对给定的科学问题进行推理和解释。

例如，如果你有一张展示厨房台面上各种食物和厨具的图片，你可以问模型：“这张图片中有哪些食物和厨具？”使用SPD技术，MLLM能够更快地生成答案，如：“图片中有一个装满各种蔬菜的白色盘子，包括胡萝卜、绿豆和西兰花。胡萝卜分散在盘子上，有些靠近中心，有些靠近边缘。绿豆也分散开来，有些靠近中心，有些靠近边缘。西兰花位于盘子左上角。”

通过这些实验，论文证明了推测解码技术在提高MLLM推理效率方面的潜力，尤其是在处理图像和文本相关任务时。这项工作为未来在其他目标模型和模态上应用SPD技术提供了一个通用框架，并可能进一步扩展到包括音频在内的其他模态，以及其他受到自回归生成限制的模型。

好 (0 )

不好 (0 )

多模态大语言模型