人工智能训练数据提供商 Scale AI Inc. 近日发布了其首个 SEAL 排行榜,这是一个旨在对大型语言模型(LLM)在多种使用案例中的能力进行评级的系统。
SEAL排行榜亮点
- OpenAI GPT系列:在四个评估领域中,三个领域排名第一。
- Anthropic Claude 3 Opus:在第四个领域夺得首位。
- Google Gemini模型:在某些领域与GPT系列并列第一。
SEAL排行榜目的
Scale AI创建SEAL排行榜的原因是市场上存在众多LLM,但它们的性能缺乏透明度。排行榜由Scale AI的安全、评估和对齐实验室开发,通过保密评估提示来保持中立性和完整性。
SEAL排行榜的独特之处
- 私有评估数据集:确保排名的完整性。
- 领域专家创建:测试由经过验证的专家设计。
- 评估方法透明:通过公布方法确保透明度。
评估细节
- Scale Coding领域:模型在随机提示上至少比较50次,以确保准确性。
- 编码评估:评估模型生成计算机代码的能力。
排名结果
- OpenAI GPT-4 Turbo Preview 和 GPT-4o 与 Google Gemini 1.5 Pro 并列编码评估第一。
- 多语言领域:GPT-4o 和 Gemini 1.5 Pro 并列第一。
- 指令跟踪:GPT-4o 领先,GPT-4 Turbo Preview 紧随其后。
- 数学能力:Anthropic Claude 3 Opus 无可争议地获得第一名。
未参与评估的模型
一些备受瞩目的模型如 AI21实验室的 Jurassic 和 Jamba,Cohere公司的 Aya 和 Command LLM,以及 xAI Corp. 的 Grok 模型未出现在评估中。
0条评论