谷歌在今天宣布将在180多个国家/地区推出Gemini 1.5 Pro 的API,首次提供原生音频(语音)理解能力以及全新的File API,使得文件处理更加便捷。此外,还推出了系统指令和JSON模式等新功能,赋予开发者对模型输出的更多控制权。最后,谷歌发布了性能卓越的下一代文本嵌入模型,超越了同类产品的表现。
以下是官方全文翻译:(原文地址)
在Google AI Studio获取API密钥,并从Gemini API Cookbook开始操作。
不到两个月前,我们向开发者推出了Gemini 1.5 Pro模型,供其试用。我们惊讶于社区利用我们开创性的100万个上下文窗口功能所取得的调试、创作和学习成果。
今天,我们首次通过Gemini API公共预览版在180多个国家/地区推出Gemini 1.5 Pro,并首次提供原生音频(语音)理解能力以及全新的File API,使得文件处理更加便捷。此外,我们还推出了系统指令和JSON模式等新功能,赋予开发者对模型输出的更多控制权。最后,我们发布了性能卓越的下一代文本嵌入模型,超越了同类产品的表现。
前往Google AI Studio创建或访问您的API密钥,开始构建您的应用吧!
解锁音频和视频模态的新用例
我们扩展了Gemini 1.5 Pro的输入模态,使其在Gemini API和Google AI Studio中都具备音频(语音)理解能力。此外,Gemini 1.5 Pro现在还能够对Google AI Studio中上传的视频的图像(帧)和音频(语音)进行推理。我们期待不久后将为此功能提供API支持。
Gemini API 改进
今天,我们将满足众多开发者的核心需求,推出以下改进:
-
系统指令:现在,您可以在Google AI Studio和Gemini API中使用系统指令来引导模型的响应。通过定义角色、格式、目标和规则,您可以针对特定用例调整模型的行为。
-
JSON模式:现在您可以指示模型仅输出JSON对象。这一模式让您能够从文本或图像中轻松提取结构化数据。您可以使用cURL开始操作,Python SDK的支持也将很快推出。
-
函数调用优化:我们增加了选择模式的功能,帮助您限制模型的输出,从而提升其可靠性。您可以选择输出文本、函数调用或仅输出函数本身。
全新高性能嵌入模型
从今天开始,开发者将通过Gemini API访问我们新一代的文本嵌入模型。新模型text-embedding-004(在Vertex AI中为text-embedding-preview-0409)在MTEB基准测试中表现出卓越的检索性能,超越了具有相似维度的现有模型。
这只是未来几周内Gemini API和Google AI Studio即将推出的一系列改进中的首批。我们将继续努力,使Google AI Studio和Gemini API成为使用Gemini构建应用的最佳平台。今天就在Google AI Studio中开始使用Gemini 1.5 Pro,探索我们新推出的Gemini API Cookbook中的代码示例和快速入门,并加入我们的Discord社区频道。
0条评论