当前位置：首页 > 优惠 >大语言模型>文章详情

新框架LMC：用于对大语言模型在高度主观任务上的表现进行基准测试

推荐人：暴走AI| 商城: AI | 10个月前 (06-16)| 分类：大语言模型 | 热度：163 ℃

已关闭评论

新框架LMC：用于对大语言模型在高度主观任务上的表现进行基准测试

AI

Predibase、博科尼大学的研究人员推出新框架“Language Model Council”（LMC），用于对大语言模型（LLMs）在高度主观任务上的表现进行基准测试。这个框架通过民主化的过程来评估和排名模型，尤其是在情感智能、创造性写作或说服力等主观性强、缺乏普遍共识的任务上。LMC框架的局限性，如只研究了单轮对话，并未考虑文化和语言背景的多样性。此外，论文强调了该框架的灵活性和可扩展性，并提供了所有数据、代码和排行榜的公开访问链接，以便研究社区可以复现和扩展研究。

项目主页：https://llm-council.com
GitHub：https://github.com/llm-council/llm-council
数据：https://huggingface.co/datasets/llm-council/emotional_application

例如，我们有两个大型语言模型A和B，它们需要对一个情感上的两难问题作出回应。比如，问题是一个关于朋友关系维护的问题：“我离开了我所有朋友和家人所在的城市。我发现他们没有我想象中的那样努力保持联系。”两个模型会给出不同的回答，然后由LMC框架下的一组模型来评估哪个回答更好。

主要功能：

通过民主化过程对LLMs在高度主观任务上的表现进行排名。
提供一个开放的情感智能任务，用于评估模型对人际困境的回应。

主要特点：

民主化评估：LMC通过平等参与制定测试集、成员间相互评估，以及集体评审的方式，来达成共识排名。
减少偏见：通过集体智慧减少个别模型的偏见，使排名更加公正和一致。
高度主观任务：专注于评估模型在情感智能等主观领域的能力。

工作原理：

测试集制定：所有理事会成员平等参与制定测试集。
响应收集：理事会成员对测试集问题给出回答。
集体评审：理事会成员作为评审团，对回答进行评价，并以多数票或平均分来决定排名。

具体应用场景：

情感智能评估：评估模型在处理情感问题和提供情感支持方面的能力。
创造性和说服力任务：评估模型在创造性写作或说服性文本生成方面的表现。
多模型比较：在多种语言模型之间进行比较，找出在特定任务上表现最好的模型。

LMC 基准测试大语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：大型3D重建模型LRM-Zero：完全使用合成的3D数据进行训练，以实现高质量的稀疏视图3D重建

下一篇：新基准测试TC-Bench：用来评估和比较不同的视频生成模型在处理时间维度上组合性的能力

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录