当前位置：首页 > 优惠 >大语言模型>文章详情

零一万物宣布开源Yi-9B模型

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-09)| 分类：大语言模型 | 热度：279 ℃

已关闭评论

国内大模型独角兽零一万物宣布开源Yi-9B模型，Yi-9B的实际参数为8.8B，默认上下文长度是4K tokens。零一万物公布的数据显示，在综合能力方面（Mean-All），Yi-9B 的性能超越了DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B和Gemma-7B；在代码能力方面（Mean-Code），Yi-9B的性能仅次于DeepSeek-Coder-7B，超越了Yi-34B、SOLAR-10.7B、Mistral-7B和Gemma-7B；在数学能力方面（Mean-Math），Yi-9B的性能仅次于DeepSeek-Math-7B，超越了SOLAR-10.7B、Mistral-7B和Gemma-7B；在常识和推理能力方面（Mean-Text），Yi-9B的性能与Mistral-7B、SOLAR-10.7B和Gemma-7B不相上下。

模型地址：https://github.com/01-ai/Yi

模型下载地址：https://huggingface.co/01-ai

Yi模型家族包括多种语言和多模态模型，这些模型在多个维度上展现出了强大的能力。Yi模型基于6B（60亿参数）和34B（340亿参数）的预训练语言模型，然后扩展到聊天模型、长上下文模型、深度扩展模型和视觉-语言模型。

主要功能和特点：

强大的多维能力： Yi模型在多种基准测试上表现出色，如MMLU（大规模多任务语言理解）。
高质量的数据： Yi模型的性能主要归功于其数据质量，这是通过复杂的数据工程努力实现的。例如，预训练数据集包含了3.1万亿个英文和中文的语料库，这些语料库是通过级联的数据去重和质量过滤管道构建的。
精细的微调： Yi的聊天模型在AlpacaEval和Chatbot Arena等主要评估平台上获得了高人类偏好率。
长上下文模型： Yi模型能够处理长达200K（20万个字符）的上下文，这通过轻量级的持续预训练实现。
视觉-语言模型： Yi模型结合了聊天语言模型和视觉变换器编码器，训练模型以使视觉表示与语言模型的语义空间对齐。

工作原理：

预训练： Yi模型首先在大量高质量数据上进行预训练，这些数据通过复杂的清洗和去重流程筛选出来。
微调： 在预训练的基础上，Yi模型通过微调来适应特定的任务，如聊天对话。微调过程中，工程师会手工挑选和优化指令数据集，确保每个实例都经过多次迭代和用户反馈的验证。
视觉-语言适应： 对于视觉-语言任务，Yi模型通过整合视觉编码器和语言模型，使模型能够理解和生成与图像内容相关的文本。

好 (0 )

不好 (0 )

Yi-9B 零一万物