达姆施塔特工业大学、黑森人工智能中心 (hessian.AI)和德国人工智能中心 (DFKI)的研究人员推出新技术T-FREE(Tokenizer-Free Generative Large Language Models via Sparse Representations),它旨在解决大语言模型(LLMs)在文本编码方面的一些固有问题。传统的LLMs依赖于分词器(Tokenizers),这些分词器通过将文本分解为子词单元,并将其转换为整型表示,以便模型能够处理。然而,这种方法存在一些限制,比如计算开销大、词汇表使用效率低,以及对特定参考语料库的依赖性,这可能导致对一些语言的表现不佳。
例如,我们有一个句子“Hello World!”,在传统分词器中,它可能被分解为["Hello", "World", "!"]三个token。而在T-FREE中,这个句子会被直接映射为一个稀疏的嵌入向量,这个向量通过激活与"Hello"和"World"相关的字符三元组来表示整个单词。
主要功能:
- 无需分词器:T-FREE直接通过字符三元组的稀疏激活模式嵌入单词,无需传统的分词器。
- 内存高效:它显著减少了模型参数,特别是嵌入层的参数,从而降低了内存需求。
主要特点:
- 稀疏表示:T-FREE使用稀疏激活模式,这允许模型在保持性能的同时减少参数量。
- 跨语言转移学习:T-FREE在跨语言学习方面表现出色,能够快速适应新的语言。
工作原理:
- 文本编码:T-FREE首先将文本分割成单词和特殊字符,然后通过一个哈希函数将每个字符三元组映射到一个稀疏的隐藏表示向量。
- 嵌入层聚合:与经典嵌入方法不同,T-FREE使用一个可调整大小的嵌入矩阵,将多个激活模式聚合为单词的最终嵌入表示。
- 训练目标和解码:T-FREE改变了传统的单标签二元交叉熵损失函数,采用多标签损失函数,以适应其单词表示的多激活特性。
具体应用场景:
- 多语言处理:T-FREE由于其跨语言的特性,适用于需要处理多种语言的应用程序。
- 内存受限的环境:在内存受限的设备上,T-FREE可以减少模型大小,提高运行效率。
- 实时应用:需要快速响应和低延迟的语言生成任务,如聊天机器人或实时翻译。
这项技术通过减少模型参数和计算需求,同时保持或提高语言模型的性能,为大型语言模型的应用提供了新的可能性。
0条评论