Scale AI 发布首个大语言模型排行榜,对特定领域的AI模型性能进行排名

| 分类: AI情报 | 热度: 153 ℃

人工智能训练数据提供商 Scale AI Inc. 近日发布了其首个 SEAL 排行榜,这是一个旨在对大型语言模型(LLM)在多种使用案例中的能力进行评级的系统。

SEAL排行榜亮点

  • OpenAI GPT系列:在四个评估领域中,三个领域排名第一。
  • Anthropic Claude 3 Opus:在第四个领域夺得首位。
  • Google Gemini模型:在某些领域与GPT系列并列第一。

SEAL排行榜目的

Scale AI创建SEAL排行榜的原因是市场上存在众多LLM,但它们的性能缺乏透明度。排行榜由Scale AI的安全、评估和对齐实验室开发,通过保密评估提示来保持中立性和完整性。

SEAL排行榜的独特之处

  • 私有评估数据集:确保排名的完整性。
  • 领域专家创建:测试由经过验证的专家设计。
  • 评估方法透明:通过公布方法确保透明度。

评估细节

  • Scale Coding领域:模型在随机提示上至少比较50次,以确保准确性。
  • 编码评估:评估模型生成计算机代码的能力。

排名结果

  • OpenAI GPT-4 Turbo Preview  GPT-4o  Google Gemini 1.5 Pro 并列编码评估第一。
  • 多语言领域:GPT-4o 和 Gemini 1.5 Pro 并列第一。
  • 指令跟踪:GPT-4o 领先,GPT-4 Turbo Preview 紧随其后。
  • 数学能力:Anthropic Claude 3 Opus 无可争议地获得第一名。

未参与评估的模型

一些备受瞩目的模型如 AI21实验室的 JurassicJamba,Cohere公司的 AyaCommand LLM,以及 xAI Corp.Grok 模型未出现在评估中。

Scale AI 发布首个大语言模型排行榜,对特定领域的AI模型性能进行排名

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论