优惠优化方法MDPO：专门为大语言模型设计的，目的是让这些模型更好地理解和响应人类的偏好

AI

推荐人：暴走AI 标签：MDPO 大语言模型 AI

1年前 (2024-06-18)AI

南加州大学、加州大学戴维斯分校和微软研究院的研究人员推出一种新的优化方法MDPO（Multimodal Direct Preference Optimization，多模态直接偏好优化）。这种方法是专门为大语言模型（LLMs）设计的，目的是让这些模型更好地理解和响应人类的偏好。通过这种方式，MDPO使得大型语言模型在处... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠强化学习方法WPO（加权偏好优化）：改善大语言模型与人类价值观的一致性

AI

推荐人：暴走AI 标签：WPO 加权偏好优化大语言模型 AI

1年前 (2024-06-18)AI

Zoomtuic 一种新的强化学习方法WPO（加权偏好优化），它用于改善大语言模型（LLMs）与人类价值观的一致性。具体来说，WPO旨在解决在使用人类反馈进行强化学习（RLHF）时遇到的一些问题，尤其是在离策略（off-policy）偏好优化的情况下。例如，我们有一个聊天机器人，我们希望它在对话中提供安全、有帮助且准确... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠提升大语言模型在数学推理方面的表现

AI

推荐人：暴走AI 标签：大语言模型 AI

1年前 (2024-06-17)AI

谷歌发布论文，论文的主题是提升大语言模型（LLMs）在数学推理方面的表现。例如，你有一个大型语言模型助手，你问它“一个篮子里有5个苹果，我拿走了2个，篮子里还有几个？”一个普通的助手可能会简单地回答“3个”。但是，如果你使用了一个经过OmegaPRM算法训练的高级助手，它可能会这样回答：“首先，我们知道篮子里原本有5个... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型基准测试BABILong：专门用来评估大语言模型处理超长文本上下文的能力

AI

推荐人：暴走AI 标签：BABILong 大语言模型 AI

1年前 (2024-06-17)AI

新型基准测试BABILong，它专门用来评估大语言模型（LLMs）处理超长文本上下文的能力。想象一下，你有一款智能助手，它需要阅读一篇非常长的文档，然后根据文档内容回答一些非常具体的问题。但是，文档中只有一小部分信息是真正需要用来回答问题的，其余的都是干扰信息。BABILong就是用来测试智能助手是否能够准确地从海量文... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠综合性基准测试工具CS-Bench：专门设计用来评估大语言模型在计算机科学（CS）领域的性能

AI

推荐人：暴走AI 标签：CS-Bench 大语言模型 AI

1年前 (2024-06-16)AI

北京邮电大学推出综合性基准测试工具CS-Bench，它专门设计用来评估大语言模型（LLMs）在计算机科学（CS）领域的性能。CS-Bench是首个中英双语的计算机科学评估基准，旨在全面考察LLMs在计算机科学各个方面的知识和推理能力。例如，我们想要检验一个人工智能是否能够像计算机科学专业的学生一样，解决编程、算法、网络... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新框架LMC：用于对大语言模型在高度主观任务上的表现进行基准测试

AI

推荐人：暴走AI 标签：LMC 基准测试大语言模型 AI

1年前 (2024-06-16)AI

Predibase、博科尼大学的研究人员推出新框架“Language Model Council”（LMC），用于对大语言模型（LLMs）在高度主观任务上的表现进行基准测试。这个框架通过民主化的过程来评估和排名模型，尤其是在情感智能、创造性写作或说服力等主观性强、缺乏普遍共识的任务上。LMC框架的局限性，如只研究了单轮... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Together AI推出新颖方法MoA：通过结合多个大语言模型的集体智慧来增强单个模型的能力

AI

推荐人：暴走AI 标签：MoA 大语言模型 AI

1年前 (2024-06-11)AI

Together AI推出一种名为“Mixture-of-Agents”（MoA，即代理混合）的新颖方法，它通过结合多个大语言模型（LLMs）的集体智慧来增强单个模型的能力。例如，如果有多个专家在团队中，每个专家都有自己擅长的领域，通过合作，他们可以共同解决更复杂的问题。MoA的原理与此类似，它通过让不同的LLMs在多... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型智能对话推荐系统ILM：结合了大语言模型的理解和生成能力以及推荐系统的个性化推荐功能

AI

推荐人：暴走AI 标签：ILM 大语言模型 AI

1年前 (2024-06-06)AI

谷歌推出一种新型的对话推荐系统，称为“Item-Language Model”（ILM）。这个系统结合了大语言模型（LLMs）的理解和生成能力以及推荐系统的个性化推荐功能。例如，你正在和一个非常聪明的在线购物助手聊天。你告诉它你想要一双新的运动鞋，它不仅能理解你的需求，还能根据你过去的购物习惯和其他用户的选择来推荐几款... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠如何在大语言模型中量化不确定性，特别是当我们需要判断模型给出的回答是否可靠时

AI

推荐人：暴走AI 标签：大语言模型 AI

1年前 (2024-06-06)AI

Google DeepMind发布论文，主题是探讨如何在大语言模型（LLMs）中量化不确定性，特别是当我们需要判断模型给出的回答是否可靠时。研究者们区分了两种不确定性：认识不确定性（epistemic uncertainty）和随机不确定性（aleatoric uncertainty）。认识不确定性来源于对真实情况（比... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠探讨如何高效地预训练大语言模型：在消耗较少的token数量时就能达到与常规训练方法相似的性能

AI

推荐人：暴走AI 标签：大语言模型 AI

1年前 (2024-05-27)AI

香港大学、香港科技大学、中国科技大学、清华大学、爱丁堡大学和MIT-IBM Watson AI 实验室的研究人员发布论文，论文的主题是探讨如何高效地预训练大语言模型（LLMs）。大语言模型（LLMs）因其规模庞大，在预训练阶段需要消耗大量的计算资源，这不仅成本高昂，而且对环境也有一定影响。为了解决这个问题，研究者们... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 LoRA Land:用于高效微调大语言模型

AI

推荐人：暴走AI 标签：LoRA LoRA Land 大语言模型 AI

1年前 (2024-05-03)AI

这篇论文的主题是关于一种名为LoRA（Low Rank Adaptation）的方法，用于高效微调（Parameter Efficient Fine-Tuning，简称PEFT）大语言模型。LoRA通过减少可训练参数的数量和内存使用，同时保持与全参数微调相当的性能，从而使得大型语言模型在特定任务上的表现得到提升。通熟... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Meta推出FLAME：提高大语言模型在遵循自然语言指令时的事实准确性

AI

推荐人：暴走AI 标签：FLAME Meta 大语言模型 AI

1年前 (2024-05-03)AI

来自滑铁卢大学、卡内基梅隆大学和Meta的研究人员推出FLAME，提高大语言模型（LLMs）在遵循自然语言指令时的事实准确性。大语言模型（比如常见的聊天机器人或者智能助手）在被训练去更好地遵循指令时，有时会生成一些错误的事实信息，这就像是它们在“幻想”或“虚构”一些不存在的事情。这篇论文研究了如何改进这一过程，使得这些... 阅读全文

直达链接好 0 不好 0 已关闭评论