拥有20亿参数的中文大语言模型“Chinese Tiny LLM(CT-LLM)”:为了更好地理解和处理中文而特别设计

分类:大语言模型 | 热度:11 ℃

来自多模态艺术投影研究共同体、复旦大学、北京大学、上海交通大学、香港科技大学、滑铁卢大学、快手公司和矢量研究所的研究人员推出中文大语言模型“Chinese Tiny LLM”(CT-LLM),这是一个拥有20亿参数的语言模型,这个模型是为了更好地理解和处理中文而特别设计的,它在训练过程中主要使用了中文文本数据,同时也包括了英文和代码的文本数据。CT-LLM的创新之处在于,它不同于以往主要依赖英文数据集训练的语言模型,而是将中文放在了核心位置。CT-LLM是一个创新的中文中心的大型语言模型,它不仅能够提升中文文本处理的能力,还具备多语言处理和适应性,为中文及其他语言的自然语言处理领域带来了新的可能性。

CT-LLM从零开始构建,主要利用了一个包含12000亿个词元的语料库中的中文数据,其中包括8000亿个中文词元、3000亿个英文词元和1000亿个代码词元。这种混合语料库的构建方式大大增强了其处理中文的能力,并通过对齐技术得到了进一步改进。CT-LLM在CHC-Bench上的中文语言任务中表现出色,同时通过SFT在英文方面也展现出卓越的能力。这种方法打破了以往依赖英文语料库进行LLM训练的常规,拓展了训练方法论。开发团队公开了CT-LLM的训练过程,包括数据处理和大规模适当预训练中文语料库(MAP-CC),并引入了中文硬案例基准(CHC-Bench),旨在鼓励进一步的研究和创新,以构建更具包容性和适应性的语言模型。

  • MAP-CC是一个开源的中文预训练数据集,规模达到8000亿个词元,并配备了一套详细的中文网络语料库清理程序。这为自然语言处理(NLP)社区提供了高质量的中文预训练数据和有效的数据准备方法。
  • CHC-Bench是一个精心挑选的跨学科中文硬案例指令理解和遵循基准,为中文语言处理任务提供了丰富的挑战和评估指标。
  • CT-LLM作为第一个以中文为中心的大型语言模型,在中文语料库上进行预训练和微调,为我们提供了关于潜在偏见、中文语言能力和多语言适应性的重要见解。

项目主页:https://chinese-tiny-llm.github.io

GitHub:https://github.com/Chinese-Tiny-LLM/Chinese-Tiny-LLM

模型:https://huggingface.co/collections/m-a-p/chinese-tiny-llm-660d0133dff6856f94ce0fc6

拥有20亿参数的中文大语言模型“Chinese Tiny LLM(CT-LLM)”:为了更好地理解和处理中文而特别设计

主要功能和特点:

  1. 中文优先:CT-LLM使用了800亿个中文标记、300亿个英文标记和100亿个代码标记进行训练,这使得模型在处理中文任务时表现出色。
  2. 多语言能力:尽管CT-LLM以中文为主,但它也能够理解和生成英文文本,展现出多语言的能力。
  3. 安全性和有益性:通过偏好优化技术,CT-LLM被训练成更安全、更有帮助的模型。
  4. 开放源代码:研究者们开源了训练CT-LLM的整个过程,包括数据预处理、模型训练和评估,这有助于推动学术界和工业界的进一步探索和创新。

工作原理:

CT-LLM的构建包括以下几个步骤:

  1. 数据准备:收集并清洗了大量的中文、英文和代码数据,形成了一个质量上乘的预训练语料库。
  2. 模型架构:基于Transformer解码器架构,使用多头注意力机制、RoPE位置编码和SwiGLU激活函数等技术来构建模型。
  3. 预训练和微调:首先在大规模的多语言数据上进行预训练,然后在特定的中英文任务上进行监督式微调(SFT)。
  4. 偏好优化:使用人类偏好学习技术来优化模型的输出,使其更加符合人类的期望和价值观。

具体应用场景:

  1. 中文文本理解:CT-LLM可以应用于中文文本的自动理解、问答系统、情感分析等任务。
  2. 多语言交互:由于其多语言能力,CT-LLM可以用于支持中英文混合的对话系统和翻译任务。
  3. 编程和代码生成:CT-LLM能够理解和生成代码,这对于开发智能编程助手和自动化代码生成工具非常有用。
  4. 教育和研究:CT-LLM可以作为教育工具,帮助学生学习中文和英文,同时也为研究人员提供了一个强大的自然语言处理平台。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论