语言模型

优惠 如何提升语言模型在规划任务中的性能,特别是那些需要多步骤模拟的复杂规划任务

  • 如何提升语言模型在规划任务中的性能,特别是那些需要多步骤模拟的复杂规划任务
    AI
  • 韩国科学技术研究院和三星研究院的研究人员发布论文,论文的主题是探讨如何提升语言模型在规划任务中的性能,特别是那些需要多步骤模拟的复杂规划任务。研究者们从人类的认知过程获得灵感,提出了一种新的方法,通过构建一种“认知地图”(cognitive map)来增强语言模型的规划能力。论文通过在Gridworld路径规划任务中的... 阅读全文

    优惠 提升语言模型在视觉常识推理方面的能力

  • 提升语言模型在视觉常识推理方面的能力
    AI
  • 耶路撒冷希伯来大学和巴伊兰大学的研究人员发布论文,论文的主题是关于如何提升语言模型在视觉常识推理方面的能力。简单来说,就是教会计算机如何更好地理解图片,并结合文字信息来做出更准确的判断。论文中提出的方法通过在训练时使用图像和文本的配对数据,并在推理时生成多个图像并集成它们的预测结果,有效地提高了语言模型在视觉常识任务上... 阅读全文

    优惠 探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征

  • 探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征
    AI
  • 麻省理工的研究人员发布论文,论文的主题是探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征。我们可以通过一个简单的比喻来理解这个问题:想象一下,你有一张城市的地图,这张地图上的所有信息都是通过点(代表城市的不同部分)在一条直线上的排列来表示的。这个排列就像是语言模型中的一维特征,每个点代表一个概念... 阅读全文

    优惠 语言模型RHO-1:挑战了传统的语言模型训练方法,设计理念是“并非所有的词汇对于语言模型训练都同等重要”

  • 语言模型RHO-1:挑战了传统的语言模型训练方法,设计理念是“并非所有的词汇对于语言模型训练都同等重要”
    AI
  • 来自厦门大学、清华大学和微软的研究人员推出语言模型RHO-1,它的设计理念是“并非所有的词汇对于语言模型训练都同等重要”。RHO-1挑战了传统的语言模型训练方法,后者通常会对所有训练词汇应用相同的预测下一个词汇的损失函数。通过对语言模型训练过程中的词汇级别动态进行初步分析,研究者们发现不同的词汇在训练中表现出不同的损失... 阅读全文

    优惠 自深度学习出现以来,预训练语言模型算法的进步速度

  • 自深度学习出现以来,预训练语言模型算法的进步速度
    AI
  • 这篇论文探讨了自深度学习出现以来,预训练语言模型算法的进步速度。研究者们收集了2012年至2023年间200多个语言模型在Wikitext和Penn Treebank数据集上评估的数据,发现为了达到一定的性能阈值,所需的计算资源大约每8个月减半,这一速度远快于摩尔定律所描述的硬件进步速度。论文还估算了增强的扩展法则,量... 阅读全文

    优惠 中等规模的通用语言模型(如LLaMA-2 7B)在数学问题解决方面也表现出了强大的能力

  • 中等规模的通用语言模型(如LLaMA-2 7B)在数学问题解决方面也表现出了强大的能力
    AI
  • 这篇论文探讨了即使是中等规模的通用语言模型(如LLaMA-2 7B)在数学问题解决方面也表现出了强大的能力。研究者们发现,尽管这些模型在随机生成答案时准确率不高,但通过从256个随机生成的答案中选择最佳答案,它们在GSM8K和MATH这两个数学基准测试上的准确率分别达到了97.7%和72.0%。这表明,这些模型已经具备... 阅读全文

    优惠 神经网络模型Hawk和Griffin:提高语言模型在处理长序列数据时的效率

  • 神经网络模型Hawk和Griffin:提高语言模型在处理长序列数据时的效率
    AI
  • Google DeepMind研究人员发布论文介绍了两种新型的神经网络模型,名为Hawk和Griffin,它们旨在提高语言模型在处理长序列数据时的效率。它们结合了循环神经网络(RNN)和注意力机制的特点,以实现快速推理和有效扩展。假设我们正在开发一个能够理解和生成复杂对话的聊天机器人。使用Griffin模型,我们可以训... 阅读全文

    优惠 新型语言模型架构Based:提高语言模型的效率,尤其是在处理长序列数据时

  • 新型语言模型架构Based:提高语言模型的效率,尤其是在处理长序列数据时
    AI
  • 这篇论文介绍了一种名为“Based”的新型语言模型架构,它旨在提高语言模型的效率,尤其是在处理长序列数据时。这种模型试图在保持高质量输出的同时,减少计算资源的消耗,特别是在内存使用和推理速度方面。假设我们正在开发一个聊天机器人,它需要理解和生成自然语言。使用Based模型,我们可以训练一个高效的语言模型,它不仅能够快速... 阅读全文

    优惠 如何优化语言模型(LMs)的学习过程,目的是减少达到高性能所需的训练步骤

  • 如何优化语言模型(LMs)的学习过程,目的是减少达到高性能所需的训练步骤
    AI
  • 来自微软的研究人员发布论文探讨了如何优化语言模型(LMs)的学习过程,目的是减少达到高性能所需的训练步骤。研究者们提出了一种理论,用于最佳化LMs的学习,这涉及到最大化数据压缩比,即在“LM训练作为无损压缩”的观点下进行优化。 论文地址:https://arxiv.org/abs/2402.17759 主要功能和特点:... 阅读全文