康乃尔科技校区推出一种新型的语言模型MDLM(简单高效的掩蔽扩散语言模型)。这种模型在生成文本方面表现出色,特别是在与自回归(AR)方法相比时,显示出了更好的性能。通过对比实验展示了MDLM在多个语言模型基准测试中的性能,并且提供了代码链接,供研究者进一步探索和使用。
- 项目主页:https://s-sahoo.com/mdlm
- GitHub:https://github.com/kuleshov-group/mdlm
- 模型:https://huggingface.co/kuleshov-group/mdlm-owt
主要功能和特点:
- 掩蔽扩散(Masked Diffusion):MDLM使用一种特殊的掩蔽扩散过程,这个过程通过逐步增加噪声并在逆过程中去除噪声来生成文本。
- 高性能:论文中指出,MDLM在语言模型基准测试中取得了扩散模型中的新最佳性能,并且接近自回归模型的困惑度(perplexity)。
- 简化目标:MDLM的目标函数是一个简化的形式,它是传统掩蔽语言模型损失的加权平均,这使得模型训练更加高效。
- 高效采样器:MDLM支持高效的采样器,包括可以像传统语言模型那样半自回归生成文本的采样器。
工作原理:
- 前向过程:在前向过程中,数据逐渐被噪声“掩蔽”,从原始数据状态向一个目标分布转变。
- 逆向过程:逆向过程则是前向过程的逆转,模型需要从噪声数据中恢复出原始数据。
- Rao-Blackwellized 目标:MDLM使用一种改进的变分下界(ELBO)目标,通过简化期望计算来降低训练过程中的方差,并提高目标的紧密度。
具体应用场景:
- 文本生成:MDLM可以用于生成连贯的文本,例如写作、故事创作、对话生成等。
- 语言模型预训练:作为一种预训练模型,MDLM可以在多种下游任务中进行微调,提高任务性能。
- 生物序列建模:论文还提到了MDLM在生物序列建模中的应用,例如DNA序列预测。
0条评论