苹果科学家新论文:大语言模型推理能力不足

| 分类: AI情报 | 热度: 33 ℃

苹果公司的AI科学家们在最近发表的一篇论文中指出,基于大语言模型(LLMs)的引擎,例如Meta和OpenAI的产品,仍然缺乏基础的推理能力。为了解决这一问题,该团队开发了一种新的基准测试方法——GSM-Symbolic,旨在衡量各种大型语言模型的推理能力。

  • 论文地址:https://arxiv.org/pdf/2410.05229

基准测试揭示模型脆弱性

通过初步测试,研究团队发现,即使是查询措辞的微小变化也会导致模型给出截然不同的答案,这严重影响了模型的可靠性。他们通过在查询中添加人类可以理解但理论上不影响基本数学解决方案的上下文信息,研究了数学推理的“脆弱性”。结果显示,这些变化导致了不同的答案,而理论上不应该出现这种情况。

研究中提到:“在GSM-Symbolic基准测试中,即使问题中的数值被改变,所有模型的性能都会下降。此外,这些模型在数学推理中的脆弱性表明,随着问题中子句数量的增加,它们的性能显著下降。”

微小变化导致准确性大幅下降

研究发现,即使添加一个看似提供相关信息的单句,也可能使最终答案的准确性降低高达65%。研究总结道:“在这个基础上,你根本无法构建可靠的智能体,因为改变一两个无关紧要的词或添加一些无关信息可能会给你不同的答案。”

缺乏批判性思维

研究中特别指出了一个需要真正理解问题的数学问题,称为“GSM-NoOp”,类似于小学生可能遇到的数学“文字问题”。例如,一个问题描述了Oliver在三天内摘猕猴桃的数量,并在最后添加了一个看似相关但实际上与最终答案无关的子句。研究结果显示,添加的无关信息导致了模型的错误答案。

这一发现与2019年的一项研究相呼应,该研究通过添加背景和相关信息,成功地混淆了AI模型,使它们给出了错误的答案。

结论

新研究总结道:“我们没有发现语言模型中存在形式推理的证据。”LLMs的行为“更好地解释为复杂的模式匹配”,并且这种匹配“实际上非常脆弱,以至于改变名字就可以改变结果。”这一发现对于未来人工智能的发展具有重要意义,提示我们在依赖这些模型时需要谨慎,并继续研究如何提高它们的推理能力。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论