当前位置：首页 > 优惠 >大语言模型>文章详情

LLaMA3-Quantization：采用低比特权量化压缩LLAMA3模型大小，减少内存和计算需求，使模型能够在资源受限的设备上运行

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-23)| 分类：大语言模型 | 热度：267 ℃

已关闭评论

LLaMA3-Quantization：采用低比特权量化压缩LLAMA3模型大小，减少内存和计算需求，使模型能够在资源受限的设备上运行

由香港大学、北京航空航天大学和苏黎世联邦理工学院的研究人员推出LLaMA3-Quantization，其采用低比特权量化（low-bit quantization）压缩LLAMA3模型大小，减少内存和计算需求，使模型能够在资源受限的设备上运行。LLAMA3是Meta公司发布的一种大语言模型，它在大量数据上进行了预训练，表现出了卓越的性能。

模型地址：https://huggingface.co/LLMQ
GitHub：https://github.com/Macaronlin/LLaMA3-Quantization

主要功能和特点：

量化评估：研究了10种不同的后训练量化（Post-Training Quantization, PTQ）和LoRA微调（LoRA-Finetuning, LoRA-FT）方法，覆盖了从1到8位的不同比特宽度。
性能比较：通过在多种数据集上评估LLAMA3模型的量化性能，揭示了在低比特权量化下的性能表现。
资源限制下的部署：探讨了在资源受限情况下部署LLAMA3模型的可能性和挑战。
公开项目和模型：为了促进研究和量化技术的更广泛应用，作者公开了他们的项目和量化后的LLAMA3模型。

工作原理：

后训练量化（PTQ）：这是一种在模型训练完成后应用的技术，通过减少模型权重和激活的比特数来压缩模型。
LoRA-FineTuning（LoRA-FT）：这是一种微调技术，通过在量化模型上进行低秩适应来提高量化后模型的性能。
量化方法：包括Round-To-Nearest（RTN）、GPTQ、AWQ、SmoothQuant、PB-LLM、QuIP、DB-LLM和BiLLM等。
评估数据集：使用WikiText2、C4、PTB、CommonSenseQA数据集（PIQA、ARC-e、ARC-c、HellaSwag、Winogrande）和MMLU基准进行评估。