vLLM:快速且易于使用的库,专为大语言模型推理和提供服务

分类:大语言模型 | 热度:187 ℃

vLLM是一个快速且易于使用的库,专为大语言模型推理和提供服务,支持目前主流的开源大模型。

vLLM之所以快,是因为它具备以下特点:

  • 领先的服务吞吐量
  • 通过PagedAttention高效管理注意力键和值内存
  • 持续批量处理传入的请求
  • 使用CUDA/HIP图进行快速模型执行
  • 量化:GPTQ、AWQ、SqueezeLLM、FP8 KV缓存
  • 优化的CUDA内核

vLLM之所以灵活且易用,是因为它具备以下特性:

  • 与流行的HuggingFace模型无缝集成
  • 支持高吞吐量服务,包括并行采样、束搜索等多种解码算法
  • 支持分布式推理的张量并行
  • 流式输出
  • 兼容OpenAI的API服务器
  • 支持NVIDIA和AMD GPU
  • (实验性)前缀缓存支持
  • (实验性)多lora支持

vLLM:快速且易于使用的库,专为大语言模型推理和提供服务

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论