Predibase、博科尼大学的研究人员推出新框架“Language Model Council”(LMC),用于对大语言模型(LLMs)在高度主观任务上的表现进行基准测试。这个框架通过民主化的过程来评估和排名模型,尤其是在情感智能、创造性写作或说服力等主观性强、缺乏普遍共识的任务上。LMC框架的局限性,如只研究了单轮对话,并未考虑文化和语言背景的多样性。此外,论文强调了该框架的灵活性和可扩展性,并提供了所有数据、代码和排行榜的公开访问链接,以便研究社区可以复现和扩展研究。
- 项目主页:https://llm-council.com
- GitHub:https://github.com/llm-council/llm-council
- 数据:https://huggingface.co/datasets/llm-council/emotional_application
例如,我们有两个大型语言模型A和B,它们需要对一个情感上的两难问题作出回应。比如,问题是一个关于朋友关系维护的问题:“我离开了我所有朋友和家人所在的城市。我发现他们没有我想象中的那样努力保持联系。”两个模型会给出不同的回答,然后由LMC框架下的一组模型来评估哪个回答更好。
主要功能:
- 通过民主化过程对LLMs在高度主观任务上的表现进行排名。
- 提供一个开放的情感智能任务,用于评估模型对人际困境的回应。
主要特点:
- 民主化评估:LMC通过平等参与制定测试集、成员间相互评估,以及集体评审的方式,来达成共识排名。
- 减少偏见:通过集体智慧减少个别模型的偏见,使排名更加公正和一致。
- 高度主观任务:专注于评估模型在情感智能等主观领域的能力。
工作原理:
- 测试集制定:所有理事会成员平等参与制定测试集。
- 响应收集:理事会成员对测试集问题给出回答。
- 集体评审:理事会成员作为评审团,对回答进行评价,并以多数票或平均分来决定排名。
具体应用场景:
- 情感智能评估:评估模型在处理情感问题和提供情感支持方面的能力。
- 创造性和说服力任务:评估模型在创造性写作或说服性文本生成方面的表现。
- 多模型比较:在多种语言模型之间进行比较,找出在特定任务上表现最好的模型。
0条评论