谷歌一直在为其Gemini AI模型(前身为Google Bard)进行快速迭代。昨天,他们透露了正在测试中的Gemini 1.5更新版,这个版本能够同时处理更多信息,并且支持视频作为输入。Gemini 1.5目前为Gemini聊天机器人及其他AI功能和服务提供动力。虽然目前这一版本仅面向软件开发者和企业客户开放预览,但不久后它将被整合到Gemini聊天机器人中。
此次升级的核心亮点是大幅扩展的“令牌上下文窗口”,即AI提示中可以输入的信息量。Gemini 1.5 Pro的标准令牌上下文窗口高达128,000个,较Gemini 1.0的32,000个令牌限制有显著提升。谷歌还为部分开发者和公司提供了高达100万个令牌的上下文窗口使用权,足以处理一小时的视频、11小时的音频或超过70万字的文本内容。令人惊讶的是,谷歌还成功测试了1000万个令牌的限制。
谷歌在博客文章中提到:“Gemini 1.5 Pro能够在不同模态上执行高度复杂的理解和推理任务,包括视频。例如,当输入一部44分钟的无声巴斯特·基顿电影时,该模型能够精确分析影片中的各个剧情点和事件,甚至挖掘出电影中容易被忽略的细微细节。”
在谷歌用于测试大型语言模型的基准中,Gemini 1.5在87%的情况下超越了早期的1.0 Pro模型,显示出在“理解和推理任务”方面的卓越表现。然而,与所有生成式AI解决方案一样,Gemini AI仍可能产生错误数据,因此它并不是完美的数据分析和事实查证工具。
尽管谷歌尚未确定常规的Gemini聊天机器人和其他谷歌服务何时会升级到Gemini 1.5,但他们表示“速度方面的重大改进也在计划中”,这意味着在推出给所有用户之前,谷歌可能会等待这些速度优化的完成。目前,新模型处于预览阶段,供使用AI Studio和Vertex AI的开发者及企业客户试用。
0条评论