优惠如何提升语言模型在规划任务中的性能，特别是那些需要多步骤模拟的复杂规划任务

AI

推荐人：暴走AI 标签：语言模型 AI

1年前 (2024-06-24)AI

韩国科学技术研究院和三星研究院的研究人员发布论文，论文的主题是探讨如何提升语言模型在规划任务中的性能，特别是那些需要多步骤模拟的复杂规划任务。研究者们从人类的认知过程获得灵感，提出了一种新的方法，通过构建一种“认知地图”（cognitive map）来增强语言模型的规划能力。论文通过在Gridworld路径规划任务中的... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠提升语言模型在视觉常识推理方面的能力

AI

推荐人：暴走AI 标签：视觉常识推理语言模型 AI

1年前 (2024-06-23)AI

耶路撒冷希伯来大学和巴伊兰大学的研究人员发布论文，论文的主题是关于如何提升语言模型在视觉常识推理方面的能力。简单来说，就是教会计算机如何更好地理解图片，并结合文字信息来做出更准确的判断。论文中提出的方法通过在训练时使用图像和文本的配对数据，并在推理时生成多个图像并集成它们的预测结果，有效地提高了语言模型在视觉常识任务上... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠探讨语言模型是否仅使用一维特征来处理和理解语言，还是它们也利用了多维特征

AI

推荐人：暴走AI 标签：语言模型 AI

1年前 (2024-05-24)AI

麻省理工的研究人员发布论文，论文的主题是探讨语言模型是否仅使用一维特征来处理和理解语言，还是它们也利用了多维特征。我们可以通过一个简单的比喻来理解这个问题：想象一下，你有一张城市的地图，这张地图上的所有信息都是通过点（代表城市的不同部分）在一条直线上的排列来表示的。这个排列就像是语言模型中的一维特征，每个点代表一个概念... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠语言模型RHO-1：挑战了传统的语言模型训练方法，设计理念是“并非所有的词汇对于语言模型训练都同等重要”

AI

推荐人：暴走AI 标签：RHO-1 语言模型 AI

1年前 (2024-04-12)AI

来自厦门大学、清华大学和微软的研究人员推出语言模型RHO-1，它的设计理念是“并非所有的词汇对于语言模型训练都同等重要”。RHO-1挑战了传统的语言模型训练方法，后者通常会对所有训练词汇应用相同的预测下一个词汇的损失函数。通过对语言模型训练过程中的词汇级别动态进行初步分析，研究者们发现不同的词汇在训练中表现出不同的损失... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠自深度学习出现以来，预训练语言模型算法的进步速度

AI

推荐人：暴走AI 标签：语言模型 AI

1年前 (2024-03-12)AI

这篇论文探讨了自深度学习出现以来，预训练语言模型算法的进步速度。研究者们收集了2012年至2023年间200多个语言模型在Wikitext和Penn Treebank数据集上评估的数据，发现为了达到一定的性能阈值，所需的计算资源大约每8个月减半，这一速度远快于摩尔定律所描述的硬件进步速度。论文还估算了增强的扩展法则，量... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠中等规模的通用语言模型（如LLaMA-2 7B）在数学问题解决方面也表现出了强大的能力

AI

推荐人：暴走AI 标签：LLaMA-2 7B 语言模型 AI

1年前 (2024-03-09)AI

这篇论文探讨了即使是中等规模的通用语言模型（如LLaMA-2 7B）在数学问题解决方面也表现出了强大的能力。研究者们发现，尽管这些模型在随机生成答案时准确率不高，但通过从256个随机生成的答案中选择最佳答案，它们在GSM8K和MATH这两个数学基准测试上的准确率分别达到了97.7%和72.0%。这表明，这些模型已经具备... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠神经网络模型Hawk和Griffin：提高语言模型在处理长序列数据时的效率

AI

推荐人：暴走AI 标签：Griffin Hawk 语言模型 AI

1年前 (2024-03-02)AI

Google DeepMind研究人员发布论文介绍了两种新型的神经网络模型，名为Hawk和Griffin，它们旨在提高语言模型在处理长序列数据时的效率。它们结合了循环神经网络（RNN）和注意力机制的特点，以实现快速推理和有效扩展。假设我们正在开发一个能够理解和生成复杂对话的聊天机器人。使用Griffin模型，我们可以训... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型语言模型架构Based：提高语言模型的效率，尤其是在处理长序列数据时

AI

推荐人：暴走AI 标签：Based 语言模型 AI

1年前 (2024-03-02)

这篇论文介绍了一种名为“Based”的新型语言模型架构，它旨在提高语言模型的效率，尤其是在处理长序列数据时。这种模型试图在保持高质量输出的同时，减少计算资源的消耗，特别是在内存使用和推理速度方面。假设我们正在开发一个聊天机器人，它需要理解和生成自然语言。使用Based模型，我们可以训练一个高效的语言模型，它不仅能够快速... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠如何优化语言模型（LMs）的学习过程，目的是减少达到高性能所需的训练步骤

AI

推荐人：暴走AI 标签：语言模型 AI

1年前 (2024-02-28)AI

来自微软的研究人员发布论文探讨了如何优化语言模型（LMs）的学习过程，目的是减少达到高性能所需的训练步骤。研究者们提出了一种理论，用于最佳化LMs的学习，这涉及到最大化数据压缩比，即在“LM训练作为无损压缩”的观点下进行优化。论文地址：https://arxiv.org/abs/2402.17759 主要功能和特点：... 阅读全文

直达链接好 0 不好 0 已关闭评论