AI
优惠 新基准测试套件Long Code Arena:专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现
5个月前 (06-20)AI
JetBrains Research和代尔夫特理工大学推出新基准测试套件Long Code Arena,它专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现。简单来说,它是一个挑战场,让计算机程序在编写、理解和修复代码时,能够更好地利用整个项目的信息,而不仅仅是单个文件或函数。Long Code Arena的... 阅读全文
优惠 超对齐(Superalignment):使用弱模型(即能力不如强模型的AI)去监督和训练强模型时,是否存在一种被称为“弱到强欺骗”(weak-to-strong deception)的现象
5个月前 (06-20)AI
中国人民大学高岭人工智能学院和腾讯的研究人员发布论文,论文探讨了一个在大语言模型(LLMs)快速发展时代中非常重要的问题:超对齐(Superalignment)。在这种情境下,人类的监督能力相对于模型的超人类能力而言是较弱的。论文的核心关注点是,当我们使用弱模型(即能力不如强模型的AI)去监督和训练强模型时,是否存在一... 阅读全文
优惠 加州大学伯克利分校推出BenchBuilder的系统:自动从众包平台收集的数据中筛选出高质量的测试题目
5个月前 (06-19)AI
加州大学伯克利分校推出BenchBuilder的系统,它的主要功能是自动从众包平台(如Chatbot Arena)收集的数据中筛选出高质量的测试题目。这些测试题目能够很好地区分不同模型的能力,并且与人类的评价标准保持一致。例如,我们想测试一个语言模型是否能够很好地理解医学领域的术语,BenchBuilder可以筛选出需... 阅读全文
优惠 Safety Arithmetic:确保大语言模型在各种使用场景下的安全性
5个月前 (06-19)AI
新加坡科技设计大学和印度理工学院 Kharagpur 分校的研究人员发布论文,论文的主题是关于如何确保大型语言模型(LLMs)在各种使用场景下的安全性。随着这些模型在翻译、问答等应用中的广泛使用,确保它们与人类价值观保持一致,不产生有害内容,变得尤为重要。通过这种方法,研究人员能够在不牺牲模型实用性的前提下,显著提高模... 阅读全文