新框架LMC:用于对大语言模型在高度主观任务上的表现进行基准测试

分类:大语言模型 | 热度:73 ℃

Predibase、博科尼大学的研究人员推出新框架“Language Model Council”(LMC),用于对大语言模型(LLMs)在高度主观任务上的表现进行基准测试。这个框架通过民主化的过程来评估和排名模型,尤其是在情感智能、创造性写作或说服力等主观性强、缺乏普遍共识的任务上。LMC框架的局限性,如只研究了单轮对话,并未考虑文化和语言背景的多样性。此外,论文强调了该框架的灵活性和可扩展性,并提供了所有数据、代码和排行榜的公开访问链接,以便研究社区可以复现和扩展研究。

  • 项目主页:https://llm-council.com
  • GitHub:https://github.com/llm-council/llm-council
  • 数据:https://huggingface.co/datasets/llm-council/emotional_application

例如,我们有两个大型语言模型A和B,它们需要对一个情感上的两难问题作出回应。比如,问题是一个关于朋友关系维护的问题:“我离开了我所有朋友和家人所在的城市。我发现他们没有我想象中的那样努力保持联系。”两个模型会给出不同的回答,然后由LMC框架下的一组模型来评估哪个回答更好。

主要功能:

  • 通过民主化过程对LLMs在高度主观任务上的表现进行排名。
  • 提供一个开放的情感智能任务,用于评估模型对人际困境的回应。

主要特点:

  1. 民主化评估:LMC通过平等参与制定测试集、成员间相互评估,以及集体评审的方式,来达成共识排名。
  2. 减少偏见:通过集体智慧减少个别模型的偏见,使排名更加公正和一致。
  3. 高度主观任务:专注于评估模型在情感智能等主观领域的能力。

工作原理:

  1. 测试集制定:所有理事会成员平等参与制定测试集。
  2. 响应收集:理事会成员对测试集问题给出回答。
  3. 集体评审:理事会成员作为评审团,对回答进行评价,并以多数票或平均分来决定排名。

具体应用场景:

  • 情感智能评估:评估模型在处理情感问题和提供情感支持方面的能力。
  • 创造性和说服力任务:评估模型在创造性写作或说服性文本生成方面的表现。
  • 多模型比较:在多种语言模型之间进行比较,找出在特定任务上表现最好的模型。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论