当前位置：首页 > 优惠 >大语言模型>文章详情

国产大模型全阵容！中国大语言模型竞技场Compass Arena全新上线

推荐人：暴走AI| 商城: AI | 11个月前 (05-31)| 分类：大语言模型 | 热度：174 ℃

已关闭评论

国产大模型全阵容！中国大语言模型竞技场Compass Arena全新上线

AI

LMSYS Org推出的大模型竞技场Chatbot Arena已成为海外知名的大模型榜单，但其中文化程度尚显不足。为了填补这一空白，上海人工智能实验室联合魔搭社区推出了中国大语言模型评测竞技场Compass Arena，首次集结了国内主流的大模型阵容，包括阿里通义千问、百度文心一言、腾讯混元等20款国产大模型，竞逐中国大模型“最强王者”的称号。

国产大模型全阵容！中国大语言模型竞技场Compass Arena全新上线

创新测评模式

与固定考题的传统测评不同，Compass Arena采用盲测、开放的测评模式，通过随机、匿名对战，让模型们成为“蒙面唱将”。用户可以自由出题，并作为评委进行评判和投票。系统将通过成千上万轮PK挑战和用户投票，自动对大模型进行排名。

权威评测体系

Compass Arena由上海人工智能实验室OpenCompass司南评测体系与魔搭社区联合建设，采用Elo评分系统，这一标准也被用于国际象棋等对弈活动的评估。在这种模式下，大模型竞技类似于在游戏中打排位，胜率成为评估模型水平的关键指标。

中文大模型的全面评测

与Chatbot Arena相比，Compass Arena更专注于中文大模型的评测，覆盖了主流国产大模型，同时评测用户大多使用中文，可以更全面地评估国产大模型的性能。

汇聚顶尖模型

目前，Compass Arena已汇聚超过20款商业及社区模型，包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max等国内头部厂商的旗舰款大模型，并引入了Llama3、Mixtral等海外标杆模型进行参照。

社区参与与进步

上线不到一周，已有上万人访问Compass Arena页面。魔搭社区鼓励广大开发者和网友参与大模型排位赛的投票，共同推动国产大模型的进步。Compass Arena将定期公布排行榜更新。

Compass Arena首批大模型名单：

Abab6.5-Chat (MiniMax)
Baichuan 4 (百川智能)
C4AI Command R+ (Cohere)
DBRX-Instruct (DataBricks)
Deepseek-LLM-67B-Chat（深度求索）
Deepseek-MoE-16B-Chat（深度求索）
Doubao-Pro-4K (字节豆包)
ERNIE-4.0-8K (百度文心一言)
GLM4 (智谱AI)
Hunyuan-Pro (腾讯混元)
InternLM2系列（上海AILab书生·浦语）
Llama3系列（Meta）
Mixtral 8x22B Instruct (Mistral)
MoonShot-V1-32K (月之暗面)
Qwen1.5系列 (阿里通义千问)
Qwen-Max (阿里通义千问)
Spark3.5-Max (讯飞星火)
Yi-34B-Chat (零一万物)
Yi-Large (零一万物)

Compass Arena 大语言模型竞技场

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： simple-one-api：简化多平台大模型集成，开箱即用

下一篇： AI搜索引擎Perplexity AI新功能“Pages”，将网络搜索转换为报告 / 文章 / 指南

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录