高通发布论文探讨了如何提高多模态大语言模型(MLLMs)推理(inference)效率的问题。MLLMs是一类能够处理包括文本和图像在内的多种模态数据的模型,它们在现实世界中非常有用,因为我们的数据通常包含多种形式,如文本、图片等。然而,这些模型在处理数据时往往速度较慢,因为它们需要逐个生成令牌(tokens),并且受到内存带宽的限制。
主要功能和特点:
- 推理加速: 论文提出了一种名为推测解码(Speculative Decoding,简称SPD)的技术,用于加速MLLMs的推理过程。通过使用一个较小的草案模型(draft model)来生成多个未来的令牌,然后由目标模型(target LLM)并行验证这些令牌,从而提高了推理速度。
- 无需图像令牌: 研究表明,即使不使用图像令牌,仅使用文本令牌的模型也可以作为草案模型,这样可以避免处理图像令牌及其相关组件的需要。
- 内存带宽加速: 实验表明,使用115M参数的语言模型作为草案模型,可以实现最高达2.37倍的内存带宽加速。
工作原理: 推测解码(SPD)的工作原理是使用一个较小的草案模型来生成一系列令牌,然后通过目标大型语言模型(LLM)来验证这些令牌。具体来说,给定一个输入文本,草案模型会生成一系列预测令牌,然后目标模型会通过一次调用来验证这些令牌。如果预测令牌被拒绝,那么就会从剩余分布中重新采样一个令牌。
具体应用场景:
- 图像问答(Image QA): 在LLaVA Instruct 150K数据集上进行图像问答任务,用户可以提供一张图片和一个或多个问题,模型需要生成详细的回答。
- 图像描述(Image Captioning): 在COCO数据集上进行图像描述任务,模型需要根据提供的图片生成描述性文本。
- 科学问答(Science QA): 在Science QA数据集上进行科学问题回答任务,这通常涉及到对给定的科学问题进行推理和解释。
例如,如果你有一张展示厨房台面上各种食物和厨具的图片,你可以问模型:“这张图片中有哪些食物和厨具?”使用SPD技术,MLLM能够更快地生成答案,如:“图片中有一个装满各种蔬菜的白色盘子,包括胡萝卜、绿豆和西兰花。胡萝卜分散在盘子上,有些靠近中心,有些靠近边缘。绿豆也分散开来,有些靠近中心,有些靠近边缘。西兰花位于盘子左上角。”
通过这些实验,论文证明了推测解码技术在提高MLLM推理效率方面的潜力,尤其是在处理图像和文本相关任务时。这项工作为未来在其他目标模型和模态上应用SPD技术提供了一个通用框架,并可能进一步扩展到包括音频在内的其他模态,以及其他受到自回归生成限制的模型。
0条评论