国内大模型独角兽零一万物宣布开源Yi-9B模型,Yi-9B的实际参数为8.8B,默认上下文长度是4K tokens。零一万物公布的数据显示,在综合能力方面(Mean-All),Yi-9B 的性能超越了DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B和Gemma-7B;在代码能力方面(Mean-Code),Yi-9B的性能仅次于DeepSeek-Coder-7B,超越了Yi-34B、SOLAR-10.7B、Mistral-7B和Gemma-7B;在数学能力方面(Mean-Math),Yi-9B的性能仅次于DeepSeek-Math-7B,超越了SOLAR-10.7B、Mistral-7B和Gemma-7B;在常识和推理能力方面(Mean-Text),Yi-9B的性能与Mistral-7B、SOLAR-10.7B和Gemma-7B不相上下。
模型地址:https://github.com/01-ai/Yi
模型下载地址:https://huggingface.co/01-ai
Yi模型家族包括多种语言和多模态模型,这些模型在多个维度上展现出了强大的能力。Yi模型基于6B(60亿参数)和34B(340亿参数)的预训练语言模型,然后扩展到聊天模型、长上下文模型、深度扩展模型和视觉-语言模型。
主要功能和特点:
- 强大的多维能力: Yi模型在多种基准测试上表现出色,如MMLU(大规模多任务语言理解)。
- 高质量的数据: Yi模型的性能主要归功于其数据质量,这是通过复杂的数据工程努力实现的。例如,预训练数据集包含了3.1万亿个英文和中文的语料库,这些语料库是通过级联的数据去重和质量过滤管道构建的。
- 精细的微调: Yi的聊天模型在AlpacaEval和Chatbot Arena等主要评估平台上获得了高人类偏好率。
- 长上下文模型: Yi模型能够处理长达200K(20万个字符)的上下文,这通过轻量级的持续预训练实现。
- 视觉-语言模型: Yi模型结合了聊天语言模型和视觉变换器编码器,训练模型以使视觉表示与语言模型的语义空间对齐。
工作原理:
- 预训练: Yi模型首先在大量高质量数据上进行预训练,这些数据通过复杂的清洗和去重流程筛选出来。
- 微调: 在预训练的基础上,Yi模型通过微调来适应特定的任务,如聊天对话。微调过程中,工程师会手工挑选和优化指令数据集,确保每个实例都经过多次迭代和用户反馈的验证。
- 视觉-语言适应: 对于视觉-语言任务,Yi模型通过整合视觉编码器和语言模型,使模型能够理解和生成与图像内容相关的文本。
0条评论