海外分析平台Artificial Analysis对ChatGPT、Claude、Meta AI、Gemini等海外主要大模型进行了深入的比较测试。他们基于对相关模型的广泛基准测试数据,提供了迄今为止最全面的AI聊天机器人分析。
- 地址:https://artificialanalysis.ai/insights/chatbots-comparison
测试内容概览
测试覆盖了从上下文窗口到PDF上传、代码解释器和创建图表的所有功能。对于不太熟悉这些术语的读者,这里提供一些背景信息:
-
基础模型:指的是由各大AI实验室开发的基础版本,例如GPT-4、Claude 3.5等。 -
聊天机器人应用:基于上述基础模型而开发的具体应用实例,如ChatGPT、Claude、Gemini等。
2024年9月:AI聊天机器人比较类别获奖者
为了便于对比,Artificial Analysis设立了六个不同的评估维度,并评出了相应的优胜者:
获奖者
-
最佳综合表现:ChatGPT Plus
ChatGPT Plus 以其卓越的模型智能和丰富的聊天机器人特性脱颖而出。它不仅能够访问 GPT-4o 模型,还涵盖了从网络搜索到图像生成再到数据分析的全方位功能,是综合性能最佳的付费聊天机器人。
-
最佳免费选择:ChatGPT Free
ChatGPT Free 为用户提供了访问 OpenAI 顶尖模型 GPT-4o 的机会,尽管访问次数有限,但几乎可以随时使用 GPT-4o mini 版本。在有限的访问次数内,用户可以尽享 ChatGPT Plus 的全部特性,是最佳的免费 AI 聊天机器人体验。
-
最佳图像处理:Poe Pro
Poe Pro 提供了访问 FLUX.1 [pro] 的权限,这是人工分析图像竞技场中的佼佼者。它支持包括 Ideogram v2 和 Playground v3 Beta 在内的多种 AI 语言和图像生成模型,是图像处理的首选。
-
最佳编程支持:Claude Pro
凭借对 Claude 3.5 Sonnet 模型的支持,Claude Pro 在编程领域独占鳌头。这款模型在编码基准测试中表现优异,且具备处理庞大代码库的长上下文能力,是编程的最佳助手。
-
最佳长上下文处理:Claude Pro
Claude Pro 支持目前消费级聊天机器人中最大的上下文窗口,达到 200k Tokens(约 150k 单词),并提供灵活的文件上传功能。结合 Claude 3.5 Sonnet 模型,它是处理长文本和大文件的理想选择。
-
最佳数据处理:ChatGPT Pro
ChatGPT Pro 结合了 GPT-4o 的智能和 Python 代码解释器,提供了无与伦比的数据分析能力。用户可以直接上传 Excel 和 CSV 等数据文件,模型能够自信地编写代码进行数据分析和图表创建。
此外,测试还特别关注了聊天机器人在处理上下文方面的表现。结果显示,Claude Pro在所有被测机器人中,是唯一一款能够支持超过40k Tokens输入上下文的聊天机器人。
智能
质量指数:基础模型智能和推理(人工分析质量指数;指数越高,表现越好)
人工分析质量指数:这是我们综合评估基础模型智能和推理能力的一个指标。我们通过一系列领先的评估数据集进行评估,包括 MMLU、GPQA、数学和 HumanEval。
有效上下文窗口(有效上下文窗口 (Tokens);指数越高,表现越好)
有效上下文窗口:指聊天机器人在测试中能够处理的最大合并输入 Tokens 数量。我们发现许多聊天机器人应用的有效上下文窗口远低于底层基础模型的完整上下文窗口。更长的上下文窗口意味着用户可以向聊天机器人提供更多信息,包括上传更长的文档。
速度
输出速度(每秒输出 Tokens;指数越高,表现越好)
输出速度:指聊天机器人生成 Tokens 时每秒收到的 Tokens 数量。这个指标是通过将输出 Tokens 的数量除以生成它们所花费的时间来计算的。在这次聊天机器人之间的比较中,我们手动测量了输出时间,并在不同时间进行了多次测量以获得有代表性的平均值。
特性
智能与特性得分(人工分析质量指标;特性得分)
聊天机器人的特性得分:汇总评分,统计聊天机器人在不同类别(全部列在上述完整比较表中)提供的特性:
-
图像生成:1 分 -
工具:4 分(网络搜索、代码解释器、数据分析、输出 HTML) -
语音特性:3 分(语音输入、语音对话、原生语音转语音) -
输入能力:4 分(图像上传、PDF 上传、Excel/CSV 上传、文件源连接) -
记忆:2 分(记忆和聊天历史)此指标的最大总值为 14 分。
人工分析质量指数:我们综合衡量基础模型的智能和推理能力。我们使用一系列领先的评估数据集进行评估,包括 MMLU、GPQA、数学和 HumanEval。
智能与有效上下文窗口(人工分析质量指数;有效上下文窗口)
有效上下文窗口:在我们的测试中,聊天机器人能够处理的合并输入 Tokens 的最大数量。
我们发现许多聊天机器人应用的有效上下文窗口远低于底层基础模型的完整上下文窗口。更长的上下文窗口允许用户向聊天机器人输入更多信息,包括上传更长的文档。
人工分析质量指数:我们综合衡量基础模型的智能和推理能力。我们使用一系列领先的评估数据集进行评估,包括 MMLU、GPQA、数学和 HumanEval。
请注意,以上信息基于Artificial Analysis的研究成果,具体性能表现可能会随着技术进步而发生变化。
0条评论