当前位置：首页 > 优惠 >大语言模型>文章详情

vLLM：快速且易于使用的库，专为大语言模型推理和提供服务

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-03)| 分类：大语言模型 | 热度：278 ℃

已关闭评论

vLLM：快速且易于使用的库，专为大语言模型推理和提供服务

AI

vLLM是一个快速且易于使用的库，专为大语言模型推理和提供服务，支持目前主流的开源大模型。

vLLM之所以快，是因为它具备以下特点：

领先的服务吞吐量
通过PagedAttention高效管理注意力键和值内存
持续批量处理传入的请求
使用CUDA/HIP图进行快速模型执行
量化：GPTQ、AWQ、SqueezeLLM、FP8 KV缓存
优化的CUDA内核

vLLM之所以灵活且易用，是因为它具备以下特性：

与流行的HuggingFace模型无缝集成
支持高吞吐量服务，包括并行采样、束搜索等多种解码算法
支持分布式推理的张量并行
流式输出
兼容OpenAI的API服务器
支持NVIDIA和AMD GPU
（实验性）前缀缓存支持
（实验性）多lora支持

vLLM：快速且易于使用的库，专为大语言模型推理和提供服务

vLLM

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：谷歌推出新模型，用于解决视频中的密集字幕生成问题

下一篇： 200多位音乐人联名呼吁：停止AI对音乐创作的滥用，保护人类创造力！

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录