当前位置：首页 > 优惠 >大语言模型>文章详情

简单高效的掩蔽扩散语言模型MDLM：生成文本方面表现出色，特别是在与自回归（AR）方法相比时，显示出了更好的性能

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-17)| 分类：大语言模型 | 热度：217 ℃

已关闭评论

简单高效的掩蔽扩散语言模型MDLM：生成文本方面表现出色，特别是在与自回归（AR）方法相比时，显示出了更好的性能

AI

康乃尔科技校区推出一种新型的语言模型MDLM（简单高效的掩蔽扩散语言模型）。这种模型在生成文本方面表现出色，特别是在与自回归（AR）方法相比时，显示出了更好的性能。通过对比实验展示了MDLM在多个语言模型基准测试中的性能，并且提供了代码链接，供研究者进一步探索和使用。

项目主页：https://s-sahoo.com/mdlm
GitHub：https://github.com/kuleshov-group/mdlm
模型：https://huggingface.co/kuleshov-group/mdlm-owt

主要功能和特点：

掩蔽扩散（Masked Diffusion）：MDLM使用一种特殊的掩蔽扩散过程，这个过程通过逐步增加噪声并在逆过程中去除噪声来生成文本。
高性能：论文中指出，MDLM在语言模型基准测试中取得了扩散模型中的新最佳性能，并且接近自回归模型的困惑度（perplexity）。
简化目标：MDLM的目标函数是一个简化的形式，它是传统掩蔽语言模型损失的加权平均，这使得模型训练更加高效。
高效采样器：MDLM支持高效的采样器，包括可以像传统语言模型那样半自回归生成文本的采样器。

工作原理：

前向过程：在前向过程中，数据逐渐被噪声“掩蔽”，从原始数据状态向一个目标分布转变。
逆向过程：逆向过程则是前向过程的逆转，模型需要从噪声数据中恢复出原始数据。
Rao-Blackwellized 目标：MDLM使用一种改进的变分下界（ELBO）目标，通过简化期望计算来降低训练过程中的方差，并提高目标的紧密度。

具体应用场景：

文本生成：MDLM可以用于生成连贯的文本，例如写作、故事创作、对话生成等。
语言模型预训练：作为一种预训练模型，MDLM可以在多种下游任务中进行微调，提高任务性能。
生物序列建模：论文还提到了MDLM在生物序列建模中的应用，例如DNA序列预测。

MDLM 掩蔽扩散语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： Skywork-MoE：具有1460亿参数和16个专家的高性能混合专家模型

下一篇：提升大语言模型在数学推理方面的表现

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录