当前位置：首页 > 优惠 >大语言模型>文章详情

RWKV推出两个新型的序列模型——Eagle（RWKV-5）和Finch（RWKV-6）

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-10)| 分类：大语言模型 | 热度：144 ℃

已关闭评论

RWKV推出两个新型的序列模型——Eagle（RWKV-5）和Finch（RWKV-6），它们是在之前RWKV-4模型的基础上进行改进的。这些模型的目标是提高自然语言处理（NLP）任务的效率，同时保持或提升模型的性能。RWKV的架构设计进步体现在多头矩阵值状态和动态递归机制上，这些改进在保持RNN推理效率的同时，也增强了其表达能力。此外，RWKV还构建了一个包含1.12万亿个标记的新型多语言语料库，并开发了一款基于贪婪匹配的快速分词器，以提升多语言处理的能力。RWKV训练了四个Eagle模型，参数规模从0.46亿到75亿不等，同时训练了两个参数分别为16亿和31亿的Finch模型。实验结果表明，这些模型在多种基准测试中均展现出了卓越的性能。现在，RWKV已将所有模型在Apache 2.0许可下发布到HuggingFace平台，供广大用户使用。

模型地址：https://huggingface.co/RWKV
训练代码：https://github.com/RWKV/RWKV-LM
推理代码：https://github.com/RWKV/ChatRWKV
时间并行训练代码: https://github.com/RWKV/RWKV-infctx-trainer

主要功能和特点：

高效推理和训练：Eagle和Finch模型结合了循环神经网络（RNN）的高效推理能力和Transformer架构的高性能特点。
动态递归机制：Finch模型引入了新的数据依赖函数，使得模型可以根据输入数据动态调整其内部状态。
矩阵值状态：Eagle模型使用多头矩阵值状态，而不是传统的向量状态，这增加了模型的表达能力。
多语言支持：新的RWKV World Tokenizer和RWKV World v2数据集特别设计用于提升多语言和代码数据的性能。

工作原理：

线性注意力机制：RWKV架构通过线性注意力机制替代了Transformer中的多头点积自注意力，从而实现了更快的并行化训练和O(1)的推理时间复杂度。
Token Shift和Time Mixing：Eagle和Finch模型通过Token Shift和Time Mixing模块动态地调整输入数据的重要性和时间混合，这有助于模型更好地理解和处理序列数据。
权重衰减：RWKV架构引入了权重衰减机制，使得模型可以更加关注当前输入，同时保留过去信息的有用部分。

具体应用场景：