当前位置：首页 > 情报 >AI情报>文章详情

Scale AI 发布首个大语言模型排行榜，对特定领域的AI模型性能进行排名

11个月前 (05-30) | 分类： AI情报 | 热度： 228 ℃

暂无评论

人工智能训练数据提供商 Scale AI Inc. 近日发布了其首个 SEAL 排行榜，这是一个旨在对大型语言模型（LLM）在多种使用案例中的能力进行评级的系统。

SEAL排行榜亮点

OpenAI GPT系列：在四个评估领域中，三个领域排名第一。
Anthropic Claude 3 Opus：在第四个领域夺得首位。
Google Gemini模型：在某些领域与GPT系列并列第一。

SEAL排行榜目的

Scale AI创建SEAL排行榜的原因是市场上存在众多LLM，但它们的性能缺乏透明度。排行榜由Scale AI的安全、评估和对齐实验室开发，通过保密评估提示来保持中立性和完整性。

SEAL排行榜的独特之处

私有评估数据集：确保排名的完整性。
领域专家创建：测试由经过验证的专家设计。
评估方法透明：通过公布方法确保透明度。

评估细节

Scale Coding领域：模型在随机提示上至少比较50次，以确保准确性。
编码评估：评估模型生成计算机代码的能力。

排名结果

OpenAI GPT-4 Turbo Preview 和 GPT-4o 与 Google Gemini 1.5 Pro 并列编码评估第一。
多语言领域：GPT-4o 和 Gemini 1.5 Pro 并列第一。
指令跟踪：GPT-4o 领先，GPT-4 Turbo Preview 紧随其后。
数学能力：Anthropic Claude 3 Opus 无可争议地获得第一名。

未参与评估的模型

一些备受瞩目的模型如 AI21实验室的 Jurassic 和 Jamba，Cohere公司的 Aya 和 Command LLM，以及 xAI Corp. 的 Grok 模型未出现在评估中。

Scale AI 发布首个大语言模型排行榜，对特定领域的AI模型性能进行排名

Scale AI 大语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！

上一篇：内容高达2500页！谷歌搜索、网页排名算法设计曝光

下一篇：微软支持的Mistral发布首个代码生成人工智能模型Codestral

猜你喜欢

查看更多商品

0条评论

暂时木有评论

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录