CLLMs 是一种新型模型,它们通过并行解码 n 个 token 来有效降低推理延迟,采用的解码方法称为雅可比解码(Jacobi decoding),在推理效率上优于传统的自回归(AR)解码。实验结果显示,CLLMs 在多种任务上的生成速度提升了 2.4 至 3.4 倍。CLLMs 作为一种高效的并行解码器家族,不仅提升了推理速度,还简化了模型管理和集成过程,为大型语言模型的应用提供了新的可能性。
CLLMs 的优势
无需草稿模型和架构修改
与现有快速解码技术相比,CLLMs 实现了快速并行解码,无需草稿模型或对架构进行修改和添加辅助模型组件。
架构共享与无缝集成
-
CLLMs 与目标大型语言模型(LLMs)共享相同的架构,无需额外工程努力即可采用该技术。 -
CLLMs 可以与其它高效的大型语言模型推理技术(如 Lookahead Decoding)无缝集成,进一步提升速度。
0条评论