当前位置：首页 > 优惠 >大语言模型>文章详情

英伟达推出多模态大语言模型NVLM 1.0

推荐人：暴走AI| 商城: AI | 7个月前 (09-18)| 分类：大语言模型 | 热度：222 ℃

已关闭评论

英伟达推出多模态大语言模型NVLM 1.0，它在视觉-语言任务上取得了突破性成果，与业界领先的专有模型（比如GPT-4o）和开源模型（比如Llama 3-V 405B和InternVL 2）相媲美。NVLM 1.0不仅在多模态任务上表现出色，还在文本任务上超越了其基础的大语言模型。

项目主页：https://nvlm-project.github.io
GitHub：https://github.com/NVIDIA/Megatron-LM
模型：https://huggingface.co/nvidia/NVLM-D-72B

主要功能：

视觉-语言理解：能够理解和处理结合了文本和图像的信息。
图像生成：根据文本描述生成相应的图像。
图像编辑：对现有图像进行修改，如添加或删除图像中的元素。
视觉条件控制：利用图像中的视觉信息（如边缘检测、深度图）来生成新的图像。

主要特点：

多模态性能：在处理文本和图像的结合任务时表现出色。
文本性能提升：在多模态训练后，其文本处理能力甚至超过了原始的语言模型。
新型架构设计：提出了一种新颖的架构，增强了训练效率和多模态推理能力。
动态高分辨率图像处理：通过1-D tile-tagging设计，显著提升了在多模态推理和OCR相关任务的性能。

工作原理： NVLM 1.0采用了一种结合了变分自编码器（VAE）和预训练的大型变换器模型的架构。VAE用于从图像中提取连续的视觉特征，而变换器模型则基于输入条件生成图像。模型能够接受任意交错的文本和图像输入作为条件来指导图像生成。在训练过程中，NVLM 1.0使用了一种名为rectified flow的优化方法，通过线性插值在噪声和数据之间进行前向过程。

具体应用场景：