MURI:为低资源语言生成高质量的指令调整(instruction tuning)数据集

分类:大语言模型 | 热度:195 ℃

慕尼黑大学 CIS 、慕尼黑机器学习中心、Cohere for AI 和剑桥大学语言技术实验室的研究人员推出一个名为MURI(Multilingual Reverse Instructions)的方法,它用于为低资源语言生成高质量的指令调整(instruction tuning)数据集。指令调整是一种优化大型语言模型(LLMs)的技术,使其更好地遵循人类的指令和偏好,以提高在多种任务上的表现。例如,你正在开发一个多语言的聊天机器人,需要它能够理解和回应不同语言的用户指令。使用MURI方法,你可以生成一个包含多种语言指令的数据集,然后用这个数据集来训练你的机器人。这样,无论用户用哪种语言提问或发出指令,机器人都能够准确理解和回应。

  • GitHub:https://github.com/akoksal/muri
  • 数据集:https://huggingface.co/datasets/akoksal/muri-it
  • 模型:https://huggingface.co/akoksal/muri-101

主要功能和特点:

  1. 无需人工注释: MURI能够在不需要人工注释或预先存在的多语言模型的情况下,为低资源语言生成指令-输出对。
  2. 文化相关性和多样性: 通过从不同的本地领域选取文本,并应用过滤器排除不适当的内容,确保数据集的文化相关性和多样性。
  3. 大规模覆盖: MURI-IT数据集包含超过200种语言的200多万个指令-输出对,其中64%的数据来自低资源语言。

工作原理:

MURI的工作原理包括以下几个步骤:

  1. 文本选择: 从多语言语料库中随机选取文档。
  2. 文档翻译: 将选定的文档翻译成英语。
  3. 反向指令生成: 使用英语大型语言模型生成与翻译后的文档相匹配的指令。
  4. 指令回译: 将生成的英语指令翻译回原始语言,作为指令-输出对中的指令部分。

具体应用场景:

  1. 多语言模型训练: MURI-IT数据集可以用于训练多语言模型,提高其在理解和执行指令方面的能力。
  2. 自然语言理解(NLU): 利用MURI-IT训练的模型可以更好地理解和响应多种语言的指令,应用于问答系统、语音助手等。
  3. 开放性文本生成: 在创意写作、内容生成等领域,MURI-IT可以帮助模型生成与指令相符的文本内容。

论文还提到了MURI-IT数据集在多语言模型评估中的表现,例如在多语言MMLU(一个自然语言理解任务)中,使用MURI-IT训练的模型在多个语言上的表现超过了现有的一些模型。这表明MURI-IT数据集在提升模型对低资源语言的理解和生成能力方面是有效的。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论