慕尼黑大学 CIS 、慕尼黑机器学习中心、Cohere for AI 和剑桥大学语言技术实验室的研究人员推出一个名为MURI(Multilingual Reverse Instructions)的方法,它用于为低资源语言生成高质量的指令调整(instruction tuning)数据集。指令调整是一种优化大型语言模型(LLMs)的技术,使其更好地遵循人类的指令和偏好,以提高在多种任务上的表现。例如,你正在开发一个多语言的聊天机器人,需要它能够理解和回应不同语言的用户指令。使用MURI方法,你可以生成一个包含多种语言指令的数据集,然后用这个数据集来训练你的机器人。这样,无论用户用哪种语言提问或发出指令,机器人都能够准确理解和回应。
- GitHub:https://github.com/akoksal/muri
- 数据集:https://huggingface.co/datasets/akoksal/muri-it
- 模型:https://huggingface.co/akoksal/muri-101
主要功能和特点:
- 无需人工注释: MURI能够在不需要人工注释或预先存在的多语言模型的情况下,为低资源语言生成指令-输出对。
- 文化相关性和多样性: 通过从不同的本地领域选取文本,并应用过滤器排除不适当的内容,确保数据集的文化相关性和多样性。
- 大规模覆盖: MURI-IT数据集包含超过200种语言的200多万个指令-输出对,其中64%的数据来自低资源语言。
工作原理:
MURI的工作原理包括以下几个步骤:
- 文本选择: 从多语言语料库中随机选取文档。
- 文档翻译: 将选定的文档翻译成英语。
- 反向指令生成: 使用英语大型语言模型生成与翻译后的文档相匹配的指令。
- 指令回译: 将生成的英语指令翻译回原始语言,作为指令-输出对中的指令部分。
具体应用场景:
- 多语言模型训练: MURI-IT数据集可以用于训练多语言模型,提高其在理解和执行指令方面的能力。
- 自然语言理解(NLU): 利用MURI-IT训练的模型可以更好地理解和响应多种语言的指令,应用于问答系统、语音助手等。
- 开放性文本生成: 在创意写作、内容生成等领域,MURI-IT可以帮助模型生成与指令相符的文本内容。
论文还提到了MURI-IT数据集在多语言模型评估中的表现,例如在多语言MMLU(一个自然语言理解任务)中,使用MURI-IT训练的模型在多个语言上的表现超过了现有的一些模型。这表明MURI-IT数据集在提升模型对低资源语言的理解和生成能力方面是有效的。
0条评论