简单高效的掩蔽扩散语言模型MDLM:生成文本方面表现出色,特别是在与自回归(AR)方法相比时,显示出了更好的性能

分类:大语言模型 | 热度:61 ℃

康乃尔科技校区推出一种新型的语言模型MDLM(简单高效的掩蔽扩散语言模型)。这种模型在生成文本方面表现出色,特别是在与自回归(AR)方法相比时,显示出了更好的性能。通过对比实验展示了MDLM在多个语言模型基准测试中的性能,并且提供了代码链接,供研究者进一步探索和使用。

  • 项目主页:https://s-sahoo.com/mdlm
  • GitHub:https://github.com/kuleshov-group/mdlm
  • 模型:https://huggingface.co/kuleshov-group/mdlm-owt

主要功能和特点:

  • 掩蔽扩散(Masked Diffusion):MDLM使用一种特殊的掩蔽扩散过程,这个过程通过逐步增加噪声并在逆过程中去除噪声来生成文本。
  • 高性能:论文中指出,MDLM在语言模型基准测试中取得了扩散模型中的新最佳性能,并且接近自回归模型的困惑度(perplexity)。
  • 简化目标:MDLM的目标函数是一个简化的形式,它是传统掩蔽语言模型损失的加权平均,这使得模型训练更加高效。
  • 高效采样器:MDLM支持高效的采样器,包括可以像传统语言模型那样半自回归生成文本的采样器。

工作原理:

  1. 前向过程:在前向过程中,数据逐渐被噪声“掩蔽”,从原始数据状态向一个目标分布转变。
  2. 逆向过程:逆向过程则是前向过程的逆转,模型需要从噪声数据中恢复出原始数据。
  3. Rao-Blackwellized 目标:MDLM使用一种改进的变分下界(ELBO)目标,通过简化期望计算来降低训练过程中的方差,并提高目标的紧密度。

具体应用场景:

  • 文本生成:MDLM可以用于生成连贯的文本,例如写作、故事创作、对话生成等。
  • 语言模型预训练:作为一种预训练模型,MDLM可以在多种下游任务中进行微调,提高任务性能。
  • 生物序列建模:论文还提到了MDLM在生物序列建模中的应用,例如DNA序列预测。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论