来自阿里巴巴和北京大学推出FastV,这是一种针对大型视觉-语言模型(LVLMs)的推理加速技术。LVLMs是一类结合了图像识别和自然语言处理能力的人工智能模型,它们可以处理复杂的任务,比如根据图片内容生成描述、回答关于图像的问题等。然而,这些模型在处理图像信息时存在效率低下的问题,特别是在模型的深层结构中。
GitHub:https://github.com/pkunlp-icler/FastV
如果你有一张包含许多细节的复杂图片,比如一个繁忙的街景,使用传统的LVLM可能需要大量的计算资源来分析每个细节。而FastV通过识别哪些视觉信息是关键的,哪些可以忽略,从而减少了处理这张图片所需的计算量,同时仍然能够准确地描述图片内容或回答关于图片的问题。这使得FastV特别适合部署在边缘设备和商业模型中,这些场景通常对计算资源有严格的限制。
主要功能和特点:
- 提高计算效率: FastV通过学习自适应的注意力模式,并在后续层级中剪枝(移除)视觉标记(visual tokens),显著减少了计算成本,比如在LLaVA-1.5-13B模型中减少了45%的浮点运算(FLOPs)。
- 保持性能: 尽管减少了计算量,FastV仍然能够在广泛的图像和视频理解任务中保持或接近原始模型的性能。
- 高度可定制: FastV的计算效率和性能之间的权衡是高度可定制的,它能够将一个具有130亿参数的模型的FLOPs压缩到比70亿参数模型更低的水平,同时保持更好的性能。
工作原理:
- 动态剪枝: FastV在模型的某个特定层级对图像标记进行重新评估,基于它们平均接收到的注意力分数。低于预定义阈值的标记在后续层级中被选择性地丢弃,从而减少了后续层级的计算负担。
- 注意力模式学习: FastV学习在早期层级中适应性地分配注意力,这样在深层中就可以减少对视觉标记的关注,因为它们对输出生成的贡献较小。
具体应用场景:
- 图像描述: FastV可以用于自动描述图片内容,例如在社交媒体平台上为用户上传的照片生成描述性文本。
- 视觉问答: 在视觉问答任务中,用户可以针对图片提出问题,FastV帮助模型快速生成准确的答案。
- 视频理解: FastV适用于视频内容理解任务,如分析视频片段并回答关于视频内容的问题。
0条评论