OpenAI又放大招!正式公开全新模型OpenAI o1系列,理科能力达到博士水平,代码能力更强

| 分类: AI情报 | 热度: 1 ℃

OpenAI公开了了其备受期待的新产品——代号为 Strawberry 的生成式 AI 模型,正式名称为 OpenAI o1。o1 系列包含多个模型,其中 o1-preview 和 o1-mini 两个版本已于周四通过 ChatGPT 和 OpenAI API 发布。o1-mini 是一个更小、更高效的模型,专注于代码生成。

OpenAI又放大招!正式公开全新模型OpenAI o1系列,理科能力达到博士水平,代码能力更强

访问权限

目前,只有 ChatGPT Plus 或 Team 订阅用户才能在 ChatGPT 客户端体验 o1。企业和教育机构用户将在下周初获得访问权限。OpenAI 表示计划将 o1-mini 访问权开放给所有 ChatGPT 的免费用户,但尚未设定具体日期。

功能与限制

值得注意的是,o1 聊天机器人的体验目前还比较基础。与前代 GPT-4o 相比,o1 目前无法浏览网页或分析文件,尽管它具备图像分析功能,但这些功能暂时被禁用,以待进一步测试。此外,o1 的使用也受到速率限制,每周限额为 o1-preview 30 条消息和 o1-mini 50 条消息。

费用

o1 的使用费用相对较高。在 OpenAI 的 API 中,o1-preview 的价格为每 100 万个输入 Token 15 美元,每 100 万个输出 Token 60 美元,这分别是 GPT-4o 成本的三倍和四倍。

以下是OpenAI官方对于OpenAI o1-preview的介绍:

我们已经开发了一系列新的 AI 模型,这些模型在回应之前会深思熟虑。它们能够处理复杂的任务,并在科学、编程和数学等领域解决比以往模型更具挑战性的问题。

今天,我们发布了这个系列的首个模型,包括 ChatGPT 和我们的 API。这只是预览版,我们期待未来会有持续的更新和改进。同时,我们也在为下一个正在开发中的更新进行评估。

工作原理

我们训练它们在回应之前深入思考问题,就像人类一样。通过训练,它们学会了优化思考过程,尝试不同的策略,并识别错误。

OpenAI又放大招!正式公开全新模型OpenAI o1系列,理科能力达到博士水平,代码能力更强

在我们的测试中,新模型在物理、化学和生物学的高难度基准测试中的表现与博士生相当。它在数学和编程方面也表现出色,在国际数学奥林匹克竞赛(IMO)的资格测试中,GPT-4o 正确解答了 13% 的问题,而我们的推理模型正确解答了 83%。在 Codeforces 编程比赛中,它的能力达到了第 89 百分位。更多详情,请参阅我们的技术详解文章

OpenAI又放大招!正式公开全新模型OpenAI o1系列,理科能力达到博士水平,代码能力更强

作为早期模型,它还没有 ChatGPT 的许多实用功能,比如上网搜索信息和上传文件及图片。对于许多常见情况,GPT-4o 将在不久的将来更加强大。

但对于复杂的推理任务来说,这是一个重大的进步,代表了 AI 能力的一次飞跃。鉴于此,我们将计数器重置为 1,并将这个系列命名为 OpenAI o1。

安全性

在开发这些新模型的过程中,我们采用了一种新的安全训练方法,利用它们的推理能力,使它们能够遵循安全和对齐指南。我们通过测试模型在用户尝试绕过安全规则时的表现来衡量安全性。

我们衡量安全性的一种方式是通过测试我们的模型在用户尝试绕过它们(称为“越狱”)时继续遵循其安全规则的程度(0-100 分)。在我们最困难的越狱测试中,GPT-4o 得分为 22,而我们的 o1 预览模型得分为 84。更多信息,请参见系统卡和我们的研究文章

为了匹配这些模型的新能力,我们加强了安全工作、内部治理和与联邦政府的合作。这包括使用我们的准备框架进行严格的测试和评估,进行最佳实践的红队演练,以及董事会级别的审查流程,包括我们的安全与安保委员会。

为了推进我们对 AI 安全的承诺,我们最近与美国和英国的 AI 安全研究所签订了正式协议。我们已经开始实施这些协议,包括向这些研究所提供这个模型的研究版本的早期访问。这是我们合作的重要第一步,帮助建立一个流程,用于在公开发布之前和之后对将来的模型进行研究、评估和测试。

适用对象

这些增强的推理能力对于那些在科学、编程、数学等领域解决复杂问题的人来说可能特别有用。例如,研究人员可以用 o1 来注释细胞测序数据,物理学家可以用它来生成量子光学所需的复杂数学公式,开发人员可以用它来构建和执行多步骤工作流程。

OpenAI o1-mini

o1 系列在生成和调试复杂代码方面表现出色。为了为开发人员提供更高效的解决方案,我们还发布了 OpenAI o1-mini,这是一个更快、更便宜的推理模型,特别擅长编程。作为一个较小的模型,o1-mini 的费用比 o1 预览版便宜 80%,使其成为一个强大且性价比高的模型,适用于需要推理但不需要广泛世界知识的应用程序。

如何使用 OpenAI o1

从今天开始,ChatGPT Plus 和团队用户将能够在 ChatGPT 中访问 o1 模型。o1 预览版和 o1-mini 都可以在模型选择器中手动选择,初始每周消息限制分别为 30 条和 50 条。我们正在努力提高这些限制,并使 ChatGPT 能够自动为给定的提示选择合适的模型。

OpenAI又放大招!正式公开全新模型OpenAI o1系列,理科能力达到博士水平,代码能力更强

ChatGPT 企业和教育用户将从下周开始获得这两个模型的访问权限。

有资格使用 API tier 5 的开发人员今天就可以开始在 API 中使用这两个模型进行原型设计,速率限制为每分钟 20 条。我们正在努力在额外测试后提高这些限制。这些模型的 API 当前不包括函数调用、流式传输、支持系统消息等功能。要开始使用,请查看 API 文档

我们还计划将 o1-mini 访问权限带给所有 ChatGPT 免费用户。

下一步是什么

这只是 ChatGPT 和 API 中这些推理模型的早期预览。除了模型更新,我们期望添加浏览、文件和图像上传等功能,使它们对每个人都更有用。

我们还计划继续开发和发布我们的 GPT 系列模型,以及新的 OpenAI o1 系列。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论