国产大模型全阵容!中国大语言模型竞技场Compass Arena全新上线

分类:大语言模型 | 热度:107 ℃

LMSYS Org推出的大模型竞技场Chatbot Arena已成为海外知名的大模型榜单,但其中文化程度尚显不足。为了填补这一空白,上海人工智能实验室联合魔搭社区推出了中国大语言模型评测竞技场Compass Arena,首次集结了国内主流的大模型阵容,包括阿里通义千问、百度文心一言、腾讯混元等20款国产大模型,竞逐中国大模型“最强王者”的称号。

国产大模型全阵容!中国大语言模型竞技场Compass Arena全新上线

创新测评模式

与固定考题的传统测评不同,Compass Arena采用盲测、开放的测评模式,通过随机、匿名对战,让模型们成为“蒙面唱将”。用户可以自由出题,并作为评委进行评判和投票。系统将通过成千上万轮PK挑战和用户投票,自动对大模型进行排名。

权威评测体系

Compass Arena由上海人工智能实验室OpenCompass司南评测体系与魔搭社区联合建设,采用Elo评分系统,这一标准也被用于国际象棋等对弈活动的评估。在这种模式下,大模型竞技类似于在游戏中打排位,胜率成为评估模型水平的关键指标。

中文大模型的全面评测

与Chatbot Arena相比,Compass Arena更专注于中文大模型的评测,覆盖了主流国产大模型,同时评测用户大多使用中文,可以更全面地评估国产大模型的性能。

汇聚顶尖模型

目前,Compass Arena已汇聚超过20款商业及社区模型,包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max等国内头部厂商的旗舰款大模型,并引入了Llama3、Mixtral等海外标杆模型进行参照。

社区参与与进步

上线不到一周,已有上万人访问Compass Arena页面。魔搭社区鼓励广大开发者和网友参与大模型排位赛的投票,共同推动国产大模型的进步。Compass Arena将定期公布排行榜更新。

Compass Arena首批大模型名单:

  • Abab6.5-Chat (MiniMax)
  • Baichuan 4 (百川智能)
  • C4AI Command R+ (Cohere)
  • DBRX-Instruct (DataBricks)
  • Deepseek-LLM-67B-Chat(深度求索)
  • Deepseek-MoE-16B-Chat(深度求索)
  • Doubao-Pro-4K (字节豆包)
  • ERNIE-4.0-8K (百度文心一言)
  • GLM4 (智谱AI)
  • Hunyuan-Pro (腾讯混元)
  • InternLM2系列(上海AILab书生·浦语)
  • Llama3系列(Meta)
  • Mixtral 8x22B Instruct (Mistral)
  • MoonShot-V1-32K (月之暗面)
  • Qwen1.5系列 (阿里通义千问)
  • Qwen-Max (阿里通义千问)
  • Spark3.5-Max (讯飞星火)
  • Yi-34B-Chat (零一万物)
  • Yi-Large (零一万物)
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论