当前位置：首页 > 情报 >AI情报>文章详情

Llamafile发布0.8.2版，优化 AVX2 性能显著改进速度

12个月前 (05-11) | 分类： AI情报 | 热度： 144 ℃

暂无评论

Mozilla 创新实验组 Ocho 的一个创新产品是 Llamafile，它旨在简化大模型的部署，让用户和开发者更容易访问大模型。Llamafile 支持跨平台，支持 CPU 和 GPU 执行，其最新版本 v0.8.2 合并了多个 AVX2 优化补丁。AVX2 或 Advanced Vector Extensions 2 指令集扩展已被英特尔和 AMD 的 CPU 的广泛支持，新的优化包括了更快的 AVX2 提示处理，Q5_K_M 等量化方法的速度改进达到了之前的 1.4~2.3 倍。

Llamafile的目标是通过支持从单一文件简化部署大型语言模型，使AI LLMs更加易于用户和开发者使用。该文件能够同时适用于CPU和GPU的执行，并且能够跨平台运行。Llamafile已经支持使用AVX/AVX2技术来提升性能，并且支持AVX-512以实现更大的加速效果。在最新发布的Llamafile 0.8.2中，还包含了额外的AVX2性能优化。最新发布的Llamafile 0.8.2版本，对Llama.cpp进行了更新，并引入了一些AVX2性能优化，令人充满期待。

Llamafile 0.8.2版本的发布说明中提到：

“此版本引入了对K-quants和IQ4_XS的更快AVX2提示处理能力。这项改进由@ikawrakow贡献，他去年首次提出了K-quants的概念：ggerganov/llama.cpp@99009e7。在之前的版本中，我们推荐使用传统的Q4_0量化方法，因为它最简单直观，并且能够与最新的矩阵乘法优化技术很好地配合。得益于Iwan Kawrakow的努力，现在最优秀的量化方法（如Q5_K_M）在现代x86系统上将实现最快的运行速度。”

AVX2在过去几年中已在Intel和AMD处理器上得到广泛应用，包括过去十年中大多数Intel的Haswell处理器，以及AMD的Excavator系列CPU。

此次更新的拉取请求中提到了一些令人振奋的性能提升，尤其是在AVX2提示处理方面。据报道，不同量化方法的速度提升在1.4到2.3倍之间。

Llamafile发布0.8.2版，优化 AVX2 性能显著改进速度

深度参与Llamafile开发的Justine Tunney最初对这项拉取请求做出了回应：

“这是一个非常显著的改进，@ikawrakow。我很高兴看到最优秀的量化格式现在能够实现最快的运行速度。在x86-64架构的机器上，我始终能够观察到1.2到2.0倍的提示处理速度提升。你甚至成功地提高了Token生成的速度（我发现这要困难得多），在某些情况下速度提升了高达1.33倍！”

Llamafile 0.8.2版本中的AVX2提示处理优化本身就足够令人兴奋。但这个版本还修复了一个内存错误，对文本生成性能进行了微调，更新了本周的Llama.cpp代码，并引入了多种新的标志。有关Llamafile 0.8.2版本的更多详细信息和下载链接，请访问GitHub。新版本的Llamafile基准测试结果将很快发布。

GitHub：https://github.com/Mozilla-Ocho/llamafile/tree/0.8.2

顶 (0 )

踩 (0 )

Llamafile Mozilla