当前位置：首页 > 优惠 >大语言模型>文章详情

新型生成模型MD4：专注于离散数据的生成，比如文本和像素级别的图像数据

推荐人：暴走AI| 商城: AI | 10个月前 (06-17)| 分类：大语言模型 | 热度：167 ℃

已关闭评论

Google DeepMind推出一种新型的生成模型——被称为“Simplified and Generalized Masked Diffusion”（简化和通用化的掩蔽扩散，简称MD4）的模型。这个模型专注于离散数据的生成，比如文本和像素级别的图像数据。了MD4模型在OpenWebText数据集上的表现超过了之前的扩散语言模型，并且在零样本语言建模任务中表现出色。此外，MD4在像素级图像建模方面也取得了显著的性能提升，与相似大小的自回归模型相比具有竞争力。

例如，我们想要生成一段描述自然风光的文本，MD4模型可以从一些给定的关键词开始，逐步揭开掩蔽的词汇，最终生成一段流畅的描述。在图像生成方面，模型可以从一个随机的像素噪声开始，逐步去除噪声，最终生成一幅清晰的自然风景图片。

主要功能：

MD4模型能够生成高质量的文本和图像。它通过一个称为“掩蔽扩散”的过程，逐步揭开数据的“掩蔽”层，从而生成连续的数据序列。

主要特点：

简化的框架：论文提出了一个简化的变分推断目标（Evidence Lower Bound, ELBO），使得模型的训练更加直观和高效。
通用性：MD4不仅适用于文本数据，还适用于像素级别的图像数据，显示出很好的通用性。
状态依赖的掩蔽计划：模型允许根据数据本身的状态来调整掩蔽的速率，这增加了模型的灵活性。

工作原理：

MD4模型基于一个“前向过程”，在该过程中数据逐步被掩蔽，然后通过一个“反向过程”来恢复数据。在前向过程中，数据的一部分被随机地转变为一个特殊的“掩蔽”状态。反向过程则是生成模型，它尝试从掩蔽状态恢复出原始数据。
为了训练这个模型，论文提出了一个基于连续时间的变分目标，该目标可以简化为一个加权的交叉熵损失积分。这使得模型能够通过简单的梯度下降方法来优化。

具体应用场景：