当前位置：首页 > 优惠 >大语言模型>文章详情

大语言模型（LLMs）在处理不同长度输入时的表现，特别是它们在处理长文本时的推理能力

推荐人：暴走AI| 商城: | 1年前 (2024-02-26)| 分类：大语言模型 | 热度：635 ℃

已关闭评论

巴伊兰大学、艾伦人工智能研究所的研究人员发布论文探讨了大语言模型（LLMs）在处理不同长度输入时的表现，特别是它们在处理长文本时的推理能力。尽管LLMs在许多任务上取得了显著进展，但它们在不同输入长度下的性能稳定性尚不清楚。为了深入了解这一点，研究者们设计了一个新的问答（QA）推理框架，专门用来评估输入长度对LLMs性能的影响。

论文地址：https://arxiv.org/abs/2402.14848

主要功能和特点包括：

输入长度的影响：研究者们发现，即使在远低于模型技术最大输入长度的情况下，LLMs的推理性能也会显著下降。
数据集设计：他们创建了一个名为Flexible LENgth Question Answering（FLenQA）的数据集，该数据集通过在相同样本的不同版本中添加不同长度、类型和位置的填充（padding），来隔离输入长度的影响。
性能下降趋势：研究显示，所有版本的数据集都出现了性能下降的趋势，尽管下降的强度不同。
与传统指标的关联性：研究还发现，传统的困惑度（perplexity）指标与LLMs在长输入推理任务中的表现并不相关。

工作原理：

FLenQA数据集：研究者们设计了一个包含三个推理任务的数据集，每个任务都包含100个基础实例。这些实例通过添加不同类型的背景文本（填充）来扩展到不同的长度。
输入长度的控制：通过在关键段落（包含解决问题所需信息的文本）周围添加无关文本，研究者们能够控制输入的长度，同时保持任务的一致性。
性能评估：研究者们测试了多个LLMs在不同输入长度下的性能，包括GPT-4、GPT-3.5等，并观察了它们在推理任务中的表现。

具体应用场景：