当前位置：首页 > 优惠 >大语言模型>文章详情

谷歌推出新颖的评估框架ToT：评估和提升大语言模型在时间推理（Temporal Reasoning）方面的能力

推荐人：暴走AI| 商城: AI | 2年前 (2024-06-16)| 分类：大语言模型 | 热度：708 ℃

已关闭评论

谷歌推出新颖的评估框架ToT：评估和提升大语言模型在时间推理（Temporal Reasoning）方面的能力

AI

谷歌发布论文，论文的主题是关于评估和提升大语言模型（LLMs）在时间推理（Temporal Reasoning）方面的能力。时间推理对于智能系统来说是一项非常重要的任务，它涉及到理解不同事件之间的时间关系。然而，现有的时间推理基准测试通常只关注基于知识图谱（Knowledge Graph）的时间事实，这限制了研究的范围，并可能无法准确反映模型的真实时间推理能力。

论文：https://arxiv.org/abs/2406.09170
数据集：https://huggingface.co/datasets/baharef/ToT

例如，你有一款智能助手，它可以阅读历史事件的描述，并理解这些事件之间的时间顺序。例如，如果助手读到“某位教练在2023年7月到2024年5月期间执教了一支球队”，然后被问到“这位教练之前的教练是谁？”一个优秀的时间推理模型应该能够根据时间线索找出正确的答案。

主要功能：

时间语义理解：模型能够理解时间的语义和逻辑。
时间计算：模型能够执行涉及时间点和持续时间的计算。

主要特点：

综合性：提供了两个任务来分别评估时间推理的两个基本技能。
可控性：通过合成数据集，研究者可以系统地探索问题结构、大小、问题类型等因素对LLM性能的影响。
抗干扰性：模型在面对不同图结构的时间数据时，能够减少对先验知识的依赖，更多地依赖于真实的时间推理。

工作原理：

ToT-Semantic（时间语义任务）：使用合成问题来突出时间语义和逻辑，通过随机生成不同的时间依赖关系和问题难度。
ToT-Arithmetic（时间计算任务）：通过众包任务来评估执行时间点和持续时间计算的能力。

具体应用场景：

历史研究：帮助研究人员理解历史事件的时间线和它们之间的联系。
事件规划：在需要考虑不同事件和预约时间的规划工具中，理解时间的先后顺序。
教育工具：作为教学辅助，帮助学生学习如何理解和推理时间问题。
自然语言理解：在需要从文本中提取和推理时间信息的应用中，如法律文档分析、医疗记录整理等。

论文通过引入“Test of Time”（ToT）基准测试，提供了一个新颖的评估框架，并通过大量实验展示了当前LLMs在时间推理任务上的优势和不足。通过开源数据集和评估框架，作者希望促进未来在这一领域的研究和发展。

ToT 时间推理

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：微软推出新型混合神经网络架构SAMBA：高效处理无限上下文长度的语言建模而设计

下一篇：苹果推出新型视觉模型4M-21：能够在多种不同的输入和输出模态之间进行转换和预测

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2026 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录