人工智能
优惠 WildGaussians:用于在各种环境条件下进行高质量的3D场景重建
标签:WildGaussians
AI
4个月前 (07-13)AI
苏黎世联邦理工学院、布拉格 CTU的研究人员推出WildGaussians,它用于在各种环境条件下进行高质量的3D场景重建。这项技术特别擅长处理那些在野外捕获的数据,比如存在遮挡、动态物体和不同光照条件的场景。例如,你手上有一堆在不同时间、不同光照条件下拍摄的某个地标的照片,比如布拉格的查理大桥或者罗马的特雷维喷泉。现... 阅读全文
优惠 新型多模态大语言模型DenseFusion-1M:通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力
4个月前 (07-13)AI
北京大学、北京人工智能研究院和大连理工大学的研究人员推出一种新型多模态大型语言模型DenseFusion-1M,它通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力。这些模型能够理解图像中的多个对象、文本信息和空间关系,但它们的性能很大程度上受限于可用的高质量图像-文本数据集的质量。 GitHub:https:/... 阅读全文
优惠 专门为视觉应用设计的新型混合模型架构MambaVision
标签:MambaVision
AI
4个月前 (07-13)AI
英伟达推出一种新型的混合模型架构——MambaVision,它是专门为视觉应用设计的。MambaVision的核心贡献在于重新设计了Mamba公式,以增强其对视觉特征的高效建模能力。此外,论文还对将视觉变换器(ViT)与Mamba集成的可行性进行了全面的研究。 GitHub:https://github.com/NVl... 阅读全文
优惠 Multimodal Self-Instruct:多模态大语言模型在理解和推理抽象图像方面的能力
4个月前 (07-13)AI
浙江大学的研究人员发布论文,论文的主题是关于如何提高大型多模态模型(LMMs)在理解和推理抽象图像方面的能力。多模态模型是一种人工智能技术,它能够处理和理解多种类型的数据,如文本、图像等。然而,尽管这些模型在处理自然场景照片和人像方面已经相当擅长,它们在处理图表、地图或布局等抽象图像时仍然存在困难。这些抽象图像通常由简... 阅读全文
优惠 智谱AI推出新型视频理解模型CogVLM2-Video:更准确地理解和回答与视频内容相关的问题
标签:CogVLM2-Video
AI
4个月前 (07-12)AI
智谱AI推出一种新型视频理解模型——CogVLM2-Video。该模型针对现有技术中的一些限制进行了改进,旨在更准确地理解和回答与视频内容相关的问题。CogVLM2-Video模型结合了新生成的数据集和现有的开放领域问答数据。该模型引入了多帧视频图像和时间戳作为编码器输入,通过这种方式,模型能够更好地理解视频内容及其时... 阅读全文
优惠 MIT推出新型训练范式Diffusion Forcing:结合了两种强大的序列生成模型的优点:基于下一个词预测的模型和全序列扩散模型
5个月前 (07-07)AI
MIT推出新型训练范式Diffusion Forcing(扩散驱动),它结合了两种强大的序列生成模型的优点:基于下一个词预测的模型和全序列扩散模型。想象一下,你有一个能够生成文本、视频或控制机器人的人工智能,但它在生成长序列或进行复杂决策时可能会遇到困难。Diffusion Forcing 就是用来解决这些问题的。 项... 阅读全文