当前位置：首页 > 优惠 >大语言模型>文章详情

MURI：为低资源语言生成高质量的指令调整（instruction tuning）数据集

推荐人：暴走AI| 商城: AI | 7个月前 (09-20)| 分类：大语言模型 | 热度：353 ℃

已关闭评论

MURI：为低资源语言生成高质量的指令调整（instruction tuning）数据集

AI

慕尼黑大学 CIS 、慕尼黑机器学习中心、Cohere for AI 和剑桥大学语言技术实验室的研究人员推出一个名为MURI（Multilingual Reverse Instructions）的方法，它用于为低资源语言生成高质量的指令调整（instruction tuning）数据集。指令调整是一种优化大型语言模型（LLMs）的技术，使其更好地遵循人类的指令和偏好，以提高在多种任务上的表现。例如，你正在开发一个多语言的聊天机器人，需要它能够理解和回应不同语言的用户指令。使用MURI方法，你可以生成一个包含多种语言指令的数据集，然后用这个数据集来训练你的机器人。这样，无论用户用哪种语言提问或发出指令，机器人都能够准确理解和回应。

GitHub：https://github.com/akoksal/muri
数据集：https://huggingface.co/datasets/akoksal/muri-it
模型：https://huggingface.co/akoksal/muri-101

主要功能和特点：

无需人工注释： MURI能够在不需要人工注释或预先存在的多语言模型的情况下，为低资源语言生成指令-输出对。
文化相关性和多样性： 通过从不同的本地领域选取文本，并应用过滤器排除不适当的内容，确保数据集的文化相关性和多样性。
大规模覆盖： MURI-IT数据集包含超过200种语言的200多万个指令-输出对，其中64%的数据来自低资源语言。

工作原理：

MURI的工作原理包括以下几个步骤：

文本选择： 从多语言语料库中随机选取文档。
文档翻译： 将选定的文档翻译成英语。
反向指令生成： 使用英语大型语言模型生成与翻译后的文档相匹配的指令。
指令回译： 将生成的英语指令翻译回原始语言，作为指令-输出对中的指令部分。

具体应用场景：

多语言模型训练： MURI-IT数据集可以用于训练多语言模型，提高其在理解和执行指令方面的能力。
自然语言理解（NLU）： 利用MURI-IT训练的模型可以更好地理解和响应多种语言的指令，应用于问答系统、语音助手等。
开放性文本生成： 在创意写作、内容生成等领域，MURI-IT可以帮助模型生成与指令相符的文本内容。

论文还提到了MURI-IT数据集在多语言模型评估中的表现，例如在多语言MMLU（一个自然语言理解任务）中，使用MURI-IT训练的模型在多个语言上的表现超过了现有的一些模型。这表明MURI-IT数据集在提升模型对低资源语言的理解和生成能力方面是有效的。

MURI

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： HyperCloning：用于加速大语言模型预训练的新策略

下一篇： 3DGS-LM：用于加速3D高斯散射的重建过程

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录