南加州大学、加州大学戴维斯分校和微软研究院的研究人员推出一种新的优化方法MDPO(Multimodal Direct Preference Optimization,多模态直接偏好优化)。这种方法是专门为大语言模型(LLMs)设计的,目的是让这些模型更好地理解和响应人类的偏好。通过这种方式,MDPO使得大型语言模型在处... 阅读全文
Predibase、博科尼大学的研究人员推出新框架“Language Model Council”(LMC),用于对大语言模型(LLMs)在高度主观任务上的表现进行基准测试。这个框架通过民主化的过程来评估和排名模型,尤其是在情感智能、创造性写作或说服力等主观性强、缺乏普遍共识的任务上。LMC框架的局限性,如只研究了单轮... 阅读全文
Together AI推出一种名为“Mixture-of-Agents”(MoA,即代理混合)的新颖方法,它通过结合多个大语言模型(LLMs)的集体智慧来增强单个模型的能力。例如,如果有多个专家在团队中,每个专家都有自己擅长的领域,通过合作,他们可以共同解决更复杂的问题。MoA的原理与此类似,它通过让不同的LLMs在多... 阅读全文
Google DeepMind发布论文,主题是探讨如何在大语言模型(LLMs)中量化不确定性,特别是当我们需要判断模型给出的回答是否可靠时。研究者们区分了两种不确定性:认识不确定性(epistemic uncertainty)和随机不确定性(aleatoric uncertainty)。认识不确定性来源于对真实情况(比... 阅读全文