零一万物宣布开源Yi-9B模型

分类:大语言模型 | 热度:110 ℃

国内大模型独角兽零一万物宣布开源Yi-9B模型,Yi-9B的实际参数为8.8B,默认上下文长度是4K tokens。零一万物公布的数据显示,在综合能力方面(Mean-All),Yi-9B 的性能超越了DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B和Gemma-7B;在代码能力方面(Mean-Code),Yi-9B的性能仅次于DeepSeek-Coder-7B,超越了Yi-34B、SOLAR-10.7B、Mistral-7B和Gemma-7B;在数学能力方面(Mean-Math),Yi-9B的性能仅次于DeepSeek-Math-7B,超越了SOLAR-10.7B、Mistral-7B和Gemma-7B;在常识和推理能力方面(Mean-Text),Yi-9B的性能与Mistral-7B、SOLAR-10.7B和Gemma-7B不相上下。

模型地址:https://github.com/01-ai/Yi

模型下载地址:https://huggingface.co/01-ai

Yi模型家族包括多种语言和多模态模型,这些模型在多个维度上展现出了强大的能力。Yi模型基于6B(60亿参数)和34B(340亿参数)的预训练语言模型,然后扩展到聊天模型、长上下文模型、深度扩展模型和视觉-语言模型。

主要功能和特点:

  • 强大的多维能力: Yi模型在多种基准测试上表现出色,如MMLU(大规模多任务语言理解)。
  • 高质量的数据: Yi模型的性能主要归功于其数据质量,这是通过复杂的数据工程努力实现的。例如,预训练数据集包含了3.1万亿个英文和中文的语料库,这些语料库是通过级联的数据去重和质量过滤管道构建的。
  • 精细的微调: Yi的聊天模型在AlpacaEval和Chatbot Arena等主要评估平台上获得了高人类偏好率。
  • 长上下文模型: Yi模型能够处理长达200K(20万个字符)的上下文,这通过轻量级的持续预训练实现。
  • 视觉-语言模型: Yi模型结合了聊天语言模型和视觉变换器编码器,训练模型以使视觉表示与语言模型的语义空间对齐。

工作原理:

  • 预训练: Yi模型首先在大量高质量数据上进行预训练,这些数据通过复杂的清洗和去重流程筛选出来。
  • 微调: 在预训练的基础上,Yi模型通过微调来适应特定的任务,如聊天对话。微调过程中,工程师会手工挑选和优化指令数据集,确保每个实例都经过多次迭代和用户反馈的验证。
  • 视觉-语言适应: 对于视觉-语言任务,Yi模型通过整合视觉编码器和语言模型,使模型能够理解和生成与图像内容相关的文本。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论