每当谷歌要在AI方面放大招,OpenAI就会抢在它之前放大招,今日凌晨,OpenAI 抢在谷歌 I/O 开幕前举办了线上直播,宣布了一系列令人瞩目的更新。其中最引人注目的莫过于全新旗舰 AI 模型 GPT-4o 的发布,以及桌面版 ChatGPT 的推出。
全新全能 AI 模型:GPT-4o
- 免费开放:GPT-4o 向所有用户免费开放,能够实时跨文本、音频、视觉(图像与视频)进行推理。
- 性能提升:API 定价仅为 GPT-4 Turbo 的一半,而速度是其两倍。
- ChatGPT Plus 特权:付费用户将获得 5 倍调用额度,并且能最早体验 macOS 桌面 App 和下一代语音及视频功能。
实时语音翻译,自然流畅
OpenAI 对 AI 聊天机器人 ChatGPT 的升级再次引领潮流,实时语音翻译能力自然流畅,几乎可以取代同声传译。
语音、视频交互新体验
GPT-4o 不仅反应迅速、回答准确,还能按要求改变说话语气,从机械到幽默,甚至高歌一曲,与真人无异。此外,它还能进行实时视频交互,通过视频影像理解线性方程,甚至“看脸色行事”。
屏幕内容理解
GPT-4o 能直接观察你的屏幕内容,并据此回答提问。展示代码时,它能提供问题诊断或解读数据图表。
快速发布,苹果设备展示
整个发布会节奏紧凑,仅半小时,期间多次展示苹果设备,暗示了 OpenAI 与苹果的紧密合作。
新功能的测试与开放
新功能测试阶段将仅限于 ChatGPT Plus 用户,未来几周将向更多用户开放。文本和图像输入功能已推出,语音和视频功能即将到来。
GPT-4o 的“全能”意义
GPT-4o 的 "o" 代表 "omni(全能)",它在文本、视觉以及音频方面的能力均得到改进,特别是非英语文本性能显著提高。
延迟降低,用户体验提升
借助 GPT-4o,所有输入和输出都由同一神经网络处理,大幅降低了延迟,提升了用户体验。
OpenAI 的使命与新界面
OpenAI 的重要使命是将先进的 AI 工具免费提供给每个人。同时,为了提升用户体验,OpenAI 更新了用户界面,让用户更专注于协作而非界面操作。
GPT Store 与新功能的结合
用户可以免费使用 GPTs 和 GPT Store,享受视觉能力,上传屏幕截图、照片等,同时保持对话的连续性。
API 开放与开发人员支持
GPT-4o 开放了 API,提供更快的速度和更优惠的价格,助力开发人员进行 AI 应用开发及部署。
语言支持加强
OpenAI 还改进了 50 种不同语言的质量和速度,为付费用户提供了更多的调用额度。
技术滥用的缓解措施
OpenAI 团队一直在研究如何建立针对技术滥用的缓解措施,确保技术的有用性和安全性。
0条评论