AI领域竞争愈发激烈,继OpenA发布GPT-4o后,Anthropic迅速行动,公开了其升级版Claude 3.5 Sonnet,这一举措不仅标志着性能与速度的显著提升,也再次点燃了技术革新竞赛的烽火。Claude 3.5 Sonnet作为Anthropic Claude系列的中坚力量,定位介于Haiku和Opus之间,却展现出了超越前序Claude 3 Opus的实力。Anthropic官方声称,这款新模型在多维度测评中,均能与业界巨头如OpenAI的GPT-4o、Google的Gemini 1.5 Pro及Meta的Llama 3 400B比肩乃至超越,特别是在编码、翻译、复杂工作流处理、数据可视化解释,以及图像转文本等方面实现了关键性突破。
用户现已可通过网页和移动应用体验到Claude 3.5 Sonnet的优化性能。尤为值得一提的是,Anthropic引入的“Artifacts”功能,为聊天机器人领域带来革新,使用户能够在应用程序内部直接与Claude产生的代码互动,极大促进了编程和网页开发的便捷性。
以下是官方介绍全文翻译:
今天,我们推出了 Claude 3.5 Sonnet —— 这是即将面世的 Claude 3.5 模型系列中的首款产品。Claude 3.5 Sonnet 在智能性方面树立了新的行业标准,在广泛的评估中超越了竞争对手的模型和 Claude 3 Opus,同时保持了我们中端模型 Claude 3 Sonnet 的速度和成本。
Claude 3.5 Sonnet 现在可以在 Claude.ai 和 Claude iOS 应用程序上免费使用,而 Claude Pro 和团队计划的订阅者可以享受更高的使用限额。它还可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 获取。该模型的输入 Token 每百万个收费 3 美元,输出 Token 每百万个收费 15 美元,上下文窗口为 200K Token。
前沿智能,速度提升至 2 倍
Claude 3.5 Sonnet 为研究生级别的推理(GPQA)、本科生级别的知识(MMLU)以及编程熟练度(HumanEval)设定了新的行业基准。它在理解细微差别、幽默和复杂指令方面有显著改进,并且在以自然、亲切的语调撰写高质量内容方面表现卓越。
Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能提升,结合具有成本效益的定价,使 Claude 3.5 Sonnet 成为执行复杂任务的理想选择,例如上下文敏感的客户支持和多步骤工作流程的协调。
在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,超越了解决了 38% 问题的 Claude 3 Opus。我们的评估测试了模型在给定自然语言描述的期望改进时,修复开源代码库中的错误或添加功能的能力。在得到指令并提供相关工具的情况下,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,具有复杂的推理和故障排除能力。它轻松处理代码翻译,特别适用于更新旧版应用程序和迁移代码库。
最先进的视觉模型
Claude 3.5 Sonnet 是我们迄今为止最强大的视觉模型,在标准视觉基准测试中超越了 Claude 3 Opus。这些跨越式改进在需要视觉推理的任务中最明显,例如解释图表和图形。Claude 3.5 Sonnet 还能从不完美的图像中准确转录文本——这是零售、物流和金融服务的核心能力,在这些领域,AI 可能从图像、图形或插图中获得的洞察力比单独从文本中获得的要多。
Artifacts —— 与 Claude 互动的新方式
今天,我们还在 Claude.ai 上推出了 Artifacts 这一新功能,它扩展了用户与 Claude 互动的方式。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时,这些 Artifacts 会出现在与对话相邻的专用窗口中。这创造了一个动态的工作空间,用户可以实时查看、编辑和构建 Claude 的创作,将 AI 生成的内容无缝集成到他们的项目和工作流程中。
这个预览功能标志着 Claude 从对话式 AI 向协作工作环境的演变。这只是 Claude.ai 更广泛愿景的开始,很快将扩展以支持团队协作。在不久的将来,团队——最终是整个组织——将能够安全地将他们的知识、文档和正在进行的工作集中到一个共享空间中,Claude 则作为按需的团队伙伴。
对安全和隐私的承诺
我们的模型经过严格的测试,并经过训练以减少滥用。尽管 Claude 3.5 Sonnet 在智能性上有了飞跃,我们的红队评估得出结论,Claude 3.5 Sonnet 仍然保持在 ASL-2 级别。更多细节可以在模型卡附录中找到。
作为我们对安全和透明度承诺的一部分,我们与外部专家合作,测试和完善了这一最新模型内的安全机制。我们最近向英国人工智能安全研究所(UK AISI)提供了 Claude 3.5 Sonnet,用于部署前的安全评估。英国人工智能安全研究所完成了对 3.5 Sonnet 的测试,并将结果与美国人工智能安全研究所(US AISI)共享,这是今年早些时候宣布的美国和英国人工智能安全研究所之间的谅解备忘录的一部分。
我们已经整合了外部主题专家的政策反馈,以确保我们的评估是健全的,并考虑到滥用的新趋势。这种参与帮助我们的团队扩大了对 3.5 Sonnet 针对各种类型滥用的评估能力。例如,我们利用 Thorn 的儿童安全专家的反馈来更新我们的分类器并微调我们的模型。
指导我们 AI 模型开发的一个核心宪法原则是隐私。我们不会在用户提交的数据上训练我们的生成模型,除非用户明确允许我们这样做。迄今为止,我们没有使用任何客户或用户提交的数据来训练我们的生成模型。
即将推出
我们的目标是每几个月显著改善智能、速度和成本之间的权衡曲线。为了完成 Claude 3.5 模型家族,我们将在今年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus。
除了致力于我们的下一代模型家族,我们还在开发新的模态和功能,以支持更多商业用例,包括与企业应用程序的集成。我们的团队还在探索如 Memory 这样的功能,它将使 Claude 能够记住用户指定的偏好和交互历史,使他们的体验更加个性化和高效。
我们一直在努力改进 Claude,并且非常喜欢听到用户的反馈。您可以直接在产品中提交关于 Claude 3.5 Sonnet 的反馈,以指导我们的发展路线图,并帮助我们的团队改善您的体验。和往常一样,我们期待看到您用 Claude 构建、创造和发现的东西。(来源)
0条评论