vLLM是一个快速且易于使用的库,专为大语言模型推理和提供服务,支持目前主流的开源大模型。
vLLM之所以快,是因为它具备以下特点:
- 领先的服务吞吐量
- 通过PagedAttention高效管理注意力键和值内存
- 持续批量处理传入的请求
- 使用CUDA/HIP图进行快速模型执行
- 量化:GPTQ、AWQ、SqueezeLLM、FP8 KV缓存
- 优化的CUDA内核
vLLM之所以灵活且易用,是因为它具备以下特性:
- 与流行的HuggingFace模型无缝集成
- 支持高吞吐量服务,包括并行采样、束搜索等多种解码算法
- 支持分布式推理的张量并行
- 流式输出
- 兼容OpenAI的API服务器
- 支持NVIDIA和AMD GPU
- (实验性)前缀缓存支持
- (实验性)多lora支持
0条评论