当前位置：首页 > 优惠 >大语言模型>文章详情

分词的诅咒：在大语言模型中，文本分词（tokenization）这一预处理步骤存在的问题，以及这些问题对模型性能的影响

推荐人：暴走AI| 商城: AI | 10个月前 (06-19)| 分类：大语言模型 | 热度：173 ℃

已关闭评论

分词的诅咒：在大语言模型中，文本分词（tokenization）这一预处理步骤存在的问题，以及这些问题对模型性能的影响

AI

百度、ModelBest和UCPH的研究人员发布论文，论文的主题是探讨了在大语言模型（LLMs）中，文本分词（tokenization）这一预处理步骤存在的问题，以及这些问题对模型性能的影响。分词是将原始文本转换成一系列子词（subword）标识符的过程，这个过程对拼写错误、文本长度变化非常敏感，并且往往忽略了词内结构，论文中将这些问题统称为“分词的诅咒”。

例如，你要教一个机器人理解人类的语言。首先，你需要把句子分解成它能理解的小片段，这些小片段就像是单词的“积木块”。但是，如果这些“积木块”拼错了，或者它们的长度和形状变了，机器人可能就会理解错误。论文中讲的就是这个问题，并且研究了怎么解决它。

主要功能：

系统地研究了分词对大型语言模型性能的影响。
提出了评估模型对分词问题敏感性的方法。

主要特点：

深入分析：对分词过程中可能出现的问题进行了深入分析。
实验验证：通过一系列实验来验证分词问题对模型性能的具体影响。
解决方案：提出了使用BPE-dropout（字节对编码的dropout变体）等方法来缓解分词问题。

工作原理：

分词问题识别：识别了分词过程中对拼写错误、长度变化和词内结构不敏感的问题。
系统评估：通过复杂问题解决、词结构探测和对印刷变异的韧性三个关键研究问题来评估这些问题。
BPE-dropout：使用BPE-dropout作为一种正则化手段，通过在分词时随机丢弃一些字节对合并，增加模型对不同词组合的鲁棒性。

具体应用场景：

自然语言处理：在自然语言处理的各种任务中，如文本分类、情感分析等，提高模型对输入文本变化的鲁棒性。
机器翻译：在机器翻译中，确保模型能够准确处理源语言的词汇，即使在面对拼写变异或不规则文本时也能保持高性能。
问答系统：在问答系统中，使模型能够更好地理解问题的文本结构，从而提供更准确的答案。

论文的研究表明，尽管扩大模型规模可以部分缓解分词问题，但LLMs仍然对拼写错误和其他文本格式变化敏感。通过实验，论文还展示了BPE-dropout等正则化方法可以提高模型对这些问题的韧性。此外，论文承诺将发布代码和数据，以促进进一步的研究。

文本分词

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：新型二值化技术“Mixture of Scales”：用于压缩大语言模型

下一篇：多图像关系基准新评估工具 MIRB：用来衡量这些模型在处理和推理多个图像时的表现，评估和测试视觉语言模型在理解多图像方面的能力

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录