Llamafile发布0.8.2版,优化 AVX2 性能显著改进速度

| 分类: AI情报 | 热度: 47 ℃

Mozilla 创新实验组 Ocho 的一个创新产品是 Llamafile,它旨在简化大模型的部署,让用户和开发者更容易访问大模型。Llamafile 支持跨平台,支持 CPU 和 GPU 执行,其最新版本 v0.8.2 合并了多个 AVX2 优化补丁。AVX2 或 Advanced Vector Extensions 2 指令集扩展已被英特尔和 AMD 的 CPU 的广泛支持,新的优化包括了更快的 AVX2 提示处理,Q5_K_M 等量化方法的速度改进达到了之前的 1.4~2.3 倍。

Llamafile的目标是通过支持从单一文件简化部署大型语言模型,使AI LLMs更加易于用户和开发者使用。该文件能够同时适用于CPU和GPU的执行,并且能够跨平台运行。Llamafile已经支持使用AVX/AVX2技术来提升性能,并且支持AVX-512以实现更大的加速效果。在最新发布的Llamafile 0.8.2中,还包含了额外的AVX2性能优化。最新发布的Llamafile 0.8.2版本,对Llama.cpp进行了更新,并引入了一些AVX2性能优化,令人充满期待。

Llamafile 0.8.2版本的发布说明中提到:

“此版本引入了对K-quants和IQ4_XS的更快AVX2提示处理能力。这项改进由@ikawrakow贡献,他去年首次提出了K-quants的概念:ggerganov/llama.cpp@99009e7。在之前的版本中,我们推荐使用传统的Q4_0量化方法,因为它最简单直观,并且能够与最新的矩阵乘法优化技术很好地配合。得益于Iwan Kawrakow的努力,现在最优秀的量化方法(如Q5_K_M)在现代x86系统上将实现最快的运行速度。”

AVX2在过去几年中已在Intel和AMD处理器上得到广泛应用,包括过去十年中大多数Intel的Haswell处理器,以及AMD的Excavator系列CPU。

此次更新的拉取请求中提到了一些令人振奋的性能提升,尤其是在AVX2提示处理方面。据报道,不同量化方法的速度提升在1.4到2.3倍之间。

Llamafile发布0.8.2版,优化 AVX2 性能显著改进速度

深度参与Llamafile开发的Justine Tunney最初对这项拉取请求做出了回应:

“这是一个非常显著的改进,@ikawrakow。我很高兴看到最优秀的量化格式现在能够实现最快的运行速度。在x86-64架构的机器上,我始终能够观察到1.2到2.0倍的提示处理速度提升。你甚至成功地提高了Token生成的速度(我发现这要困难得多),在某些情况下速度提升了高达1.33倍!”

Llamafile 0.8.2版本中的AVX2提示处理优化本身就足够令人兴奋。但这个版本还修复了一个内存错误,对文本生成性能进行了微调,更新了本周的Llama.cpp代码,并引入了多种新的标志。有关Llamafile 0.8.2版本的更多详细信息和下载链接,请访问GitHub。新版本的Llamafile基准测试结果将很快发布。

GitHub:https://github.com/Mozilla-Ocho/llamafile/tree/0.8.2

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论