Cohere推出了大型语言模型Command R+。专为企业级工作负载设计,优化了高级检索增强生成(RAG)功能,以减少错误生成,并支持10种关键语言的多语言覆盖。
以下是官方介绍全文翻译:
Command R+是一款经过RAG优化的尖端模型,专门设计用于处理企业级工作负载,并首先在Microsoft Azure平台上提供。
今天,我们隆重推出Command R+,这是我们目前最强大、最具可扩展性的大型语言模型(LLM),专为满足现实世界中企业用例的需求而精心打造。Command R+加入我们的R系列LLM家族,该系列致力于实现高效率与强大准确性之间的完美平衡,从而助力企业从概念验证阶段顺利过渡到AI技术的实际应用。
与我们最近发布的Command R模型相似,Command R+同样具备一个128k令牌的上下文窗口,并致力于提供业界领先的以下功能:
- 先进的检索增强生成(RAG)技术,通过引文减少生成文本中的错误与不准确之处
- 覆盖10种关键语言的多语言支持,满足全球业务运营的需求
- 集成工具使用功能,自动执行复杂的业务流程
我们最新的模型在Command R的基础上继续发扬其优势,并全方位提升性能。在可扩展市场类别中,Command R+的表现优于同类模型,同时在关键业务功能上也能与价格更高的模型相媲美。在取得这些成就的同时,我们依然坚守对数据隐私和安全性的承诺。
随着我们持续为全球企业界提供服务,我们很高兴宣布与Microsoft Azure展开新的合作,共同推动企业AI技术的广泛应用。
(左图)Azure上可用模型在三种关键能力(多语言、RAG和工具使用)上的性能比较。性能是后续图表中列出的基准测试中模型得分的平均值。
(右图)Azure上可用模型每百万输入输出令牌的成本比较。
开发人员和企业从今天起可以率先在Azure上访问Cohere的最新模型,该模型不久也将登陆Oracle Cloud Infrastructure(OCI)以及其他云平台。同时,Command R+将立即在Cohere的托管API上提供。
业界领先的RAG解决方案
RAG已成为企业采纳LLM并用自有专有数据进行定制的基础构件。Command R+在Command R在RAG用例中展现的卓越性能基础上进行了进一步的提升。
Command R+针对高级RAG进行了优化,旨在为企业提供即插即用、高度可靠和可验证的解决方案。新模型不仅提高了响应准确性,还通过内嵌引文来减少错误信息的出现。这一强大功能有助于企业利用AI快速找到最相关的信息,从而有效支持财务、人力资源、销售、营销、客户服务等多个业务功能,并适用于多个行业领域。
(左图)通过综合评分方案得出的人与人之间的偏好结果,该方案结合了文本流畅性、引用质量和整体实用性。引用质量是在摘要中与源文档片段相连的句子级别上进行衡量的。我们使用了包含250篇高度多样化文档和具有复杂指令的摘要请求的专有测试集,这些指令类似于API数据。基线模型已经通过少量的提示(Sonnet)和两步摘要(先摘要后插入引用)的提示工程进行了广泛优化(GPT4),而Command R+则使用了我们的RAG-API。
(右图)由不同模型驱动的多跳REACT代理使用相同的搜索工具从维基百科(HotpotQA)和互联网(Bamboogle和StrategyQA)检索信息的准确性。HotpotQA和Bamboogle的准确性由三个被提示的评估者(Command R、GPT3.5和Claude3-Haiku)通过三方多数投票判断,以减少已知的模型内部偏差,我们在一千个样本子集上通过人工标注进行了验证。StrategyQA的准确性是通过一个以是非判断结尾的长答案来判断的。我们使用了(Shin et. al. 2023)、(Press et al. 2023)和(Chen et al. 2023)中的测试集。
利用工具使用功能自动化复杂业务工作流程
大型语言模型的一大亮点在于其不仅能够处理文本输入输出,更能作为核心推理引擎:具备决策能力,并能利用工具自动化解决需要智力投入的复杂任务。为了充分发挥这一能力,Command R+特别配备了工具使用功能,通过我们的API和LangChain,可以无缝对接,实现复杂业务工作流程的自动化。
结合工具使用,我们的模型系列能够应对关键的企业应用场景,例如自动更新客户关系管理(CRM)中的任务、活动和记录。这一功能将我们的模型应用从简单的聊天机器人提升为高效能的代理和研究工具,从而显著提升工作效率。
在Command R+中,我们新增了多步骤工具使用功能。这一功能允许模型在多个步骤中灵活组合使用多种工具,以完成复杂任务。更值得一提的是,当Command R+在尝试使用工具时遭遇失败,如遇到工具中的错误或故障,它能够进行自我修正,并多次尝试完成任务,从而提高任务的成功率。
我们使用微软的ToolTalk(Hard)基准测试(Farn & Shin 2023)和伯克利的功能调用排行榜(BFCL)(Yan et al. 2024)来评估会话式工具使用和单轮函数调用能力。对于ToolTalk,我们根据基准真实情况评估预测的工具调用,并通过模型回忆所有工具调用并避免不良行为(即具有不良副作用的工具调用)的可能性来判断整体会话成功的指标。对于BFCL,我们在评估中包含了bug修复(所有模型都从中受益),并报告所有子类别中函数成功率的平均分数。我们通过额外的人工评估清理步骤验证了我们的bug修复,以防止出现假阴性。
多语言支持,赋能全球业务运营
Command R+旨在服务尽可能多的用户、组织及市场。在与企业的交流中,我们深知多语言功能的重要性,它能够帮助组织更加顺畅地跨越不同地域与文化进行协作。因此,我们精心打造了Command R+,使其在包括英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语和中文在内的10种全球商业关键语言中表现出色。
FLoRES(法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语和中文)和 WMT23(德语、日语和中文)翻译任务的模型比较。
这一多语言功能使用户能够不受语言限制,从庞大的数据源中生成精准的回应,从而支持我们为地理分布广泛的全球公司提供高效的产品特性和工具。我们期待全球各地的企业能够试用我们的Command R+模型系列,为其业务运营和产品提供强大的动力。
不仅如此,Command R+不仅具备强大的多语言处理能力,其所属的R系列模型还配备了一款先进的分词器。这款分词器对非英语文本的压缩效果远胜于市场上其他模型所使用的分词器,能够实现高达57%的成本降低。
对比了Cohere、Mistral(Mixtral)和OpenAI分词器在不同语言下产生的令牌数量(以Cohere分词器产生的令牌数量为基准倍数)。Cohere分词器在表示相同文本时产生的令牌数量要少得多,特别是在非拉丁文字脚本语言上减少的幅度尤其大。例如,在日语中,OpenAI分词器产生的令牌数量是Cohere分词器的1.67倍。
可用性与定价
为了让我们的模型能够普及到更广泛的用户群体,Cohere与所有主要的云服务提供商以及有特定需求的本地部署进行合作。无论是对于受监管的行业还是隐私敏感的应用场景,我们都能提供灵活的解决方案。
如您的企业有意在生产环境中部署Command R+,欢迎联系我们的销售团队,我们将为您提供详细的部署方案及报价。
此外,我们最新的Command R+模型现已在Cohere的演示环境中上线。通过简单的聊天界面,任何用户都可以轻松体验并测试该模型的各项功能。
我们对数据隐私和安全的承诺
通过Command R模型系列,我们始终致力于保护客户的数据、隐私和安全,确保企业能够放心地使用我们的AI技术。我们深知数据隐私的重要性,因此在产品设计时始终将数据隐私作为核心考虑。此外,我们还为客户提供额外的版权保障,以防范潜在的侵权风险。除非得到客户的明确授权,我们不会主动访问客户的数据。同时,我们也提供私有的LLM部署选项,并允许客户选择是否共享数据。我们始终致力于为客户提供安全、可靠的AI服务,让企业在使用我们的技术时能够无后顾之忧。
0条评论