谷歌推出新颖的评估框架ToT:评估和提升大语言模型在时间推理(Temporal Reasoning)方面的能力

分类:大语言模型 | 热度:76 ℃

谷歌发布论文,论文的主题是关于评估和提升大语言模型(LLMs)在时间推理(Temporal Reasoning)方面的能力。时间推理对于智能系统来说是一项非常重要的任务,它涉及到理解不同事件之间的时间关系。然而,现有的时间推理基准测试通常只关注基于知识图谱(Knowledge Graph)的时间事实,这限制了研究的范围,并可能无法准确反映模型的真实时间推理能力。

  • 论文:https://arxiv.org/abs/2406.09170
  • 数据集:https://huggingface.co/datasets/baharef/ToT

例如,你有一款智能助手,它可以阅读历史事件的描述,并理解这些事件之间的时间顺序。例如,如果助手读到“某位教练在2023年7月到2024年5月期间执教了一支球队”,然后被问到“这位教练之前的教练是谁?”一个优秀的时间推理模型应该能够根据时间线索找出正确的答案。

主要功能:

  • 时间语义理解:模型能够理解时间的语义和逻辑。
  • 时间计算:模型能够执行涉及时间点和持续时间的计算。

主要特点:

  • 综合性:提供了两个任务来分别评估时间推理的两个基本技能。
  • 可控性:通过合成数据集,研究者可以系统地探索问题结构、大小、问题类型等因素对LLM性能的影响。
  • 抗干扰性:模型在面对不同图结构的时间数据时,能够减少对先验知识的依赖,更多地依赖于真实的时间推理。

工作原理:

  • ToT-Semantic(时间语义任务):使用合成问题来突出时间语义和逻辑,通过随机生成不同的时间依赖关系和问题难度。
  • ToT-Arithmetic(时间计算任务):通过众包任务来评估执行时间点和持续时间计算的能力。

具体应用场景:

  1. 历史研究:帮助研究人员理解历史事件的时间线和它们之间的联系。
  2. 事件规划:在需要考虑不同事件和预约时间的规划工具中,理解时间的先后顺序。
  3. 教育工具:作为教学辅助,帮助学生学习如何理解和推理时间问题。
  4. 自然语言理解:在需要从文本中提取和推理时间信息的应用中,如法律文档分析、医疗记录整理等。

论文通过引入“Test of Time”(ToT)基准测试,提供了一个新颖的评估框架,并通过大量实验展示了当前LLMs在时间推理任务上的优势和不足。通过开源数据集和评估框架,作者希望促进未来在这一领域的研究和发展。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论