多模态大语言模型

优惠 苹果推出新型多模态大语言模型MM1.5:提升对包含丰富文本的图像理解、视觉指代和定位以及多图像推理的能力

  • 苹果推出新型多模态大语言模型MM1.5:提升对包含丰富文本的图像理解、视觉指代和定位以及多图像推理的能力
    AI
  • 苹果推出新型多模态大语言模型MM1.5,它是为了提升对包含丰富文本的图像理解、视觉指代和定位以及多图像推理的能力而设计的。简单来说,MM1.5就像一个超级聪明的助手,它可以阅读和理解图片中的文字,告诉你图片里发 ...... 阅读全文

    优惠 新型多模态大语言模型VideoLISA:专为视频领域内基于语言指令的推理分割任务而设计

  • 新型多模态大语言模型VideoLISA:专为视频领域内基于语言指令的推理分割任务而设计
    AI
  • 新加坡国立大学和亚马逊的研究人员推出新型多模态大语言模型VideoLISA,它专为视频领域内基于语言指令的推理分割任务而设计。VideoLISA结合了大型语言模型的推理能力和对世界知识的掌握,并借助Segment Anything Mod ...... 阅读全文

    优惠 英伟达推出多模态大语言模型NVLM 1.0

  • 英伟达推出多模态大语言模型NVLM 1.0
    AI
  • 英伟达推出多模态大语言模型NVLM 1.0,它在视觉-语言任务上取得了突破性成果,与业界领先的专有模型(比如GPT-4o)和开源模型(比如Llama 3-V 405B和InternVL 2)相媲美。NVLM 1.0不仅在多模态任务上表现出色,还在 ...... 阅读全文

    优惠 多模态大语言模型EAGLE:专门设计用于提升模型在处理视觉信息时的能力

  • 多模态大语言模型EAGLE:专门设计用于提升模型在处理视觉信息时的能力
    AI
  • 英伟达、佐治亚理工学院、UMD和香港理工大学的研究人员推出多模态大语言模型EAGLE,专门设计用于提升模型在处理视觉信息时的能力。简单来说,EAGLE项目的目标是让语言模型能够更好地“看懂”和理解图片,并将这些视觉 ...... 阅读全文

    优惠 阿里巴巴推出多模态大语言模型mPLUG-Owl3

  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3
    AI
  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3,它在处理单图像、多图像和视频任务方面取得了显著的进展。例如,你向mPLUG-Owl3展示一系列图片,并询问其中的天气情况,模型可以分析这些图片并告诉你哪一张是雪天。或者, ...... 阅读全文

    优惠 多模态大语言模型Goldfish:专门用来理解和处理非常长的视频内容

  • 多模态大语言模型Goldfish:专门用来理解和处理非常长的视频内容
    AI
  • 阿卜杜拉国王科技大学和瑞士人工智能实验室推出Goldfish,它专门用来理解和处理非常长的视频内容。你有一个好几个小时的视频,比如一部电影或电视剧,你想知道里面某个特定场景的细节,但是从头到尾看完实在太费时间 ...... 阅读全文

    优惠 新框架E5-V:利用多模态大语言模型来实现通用的多模态嵌入

  • 新框架E5-V:利用多模态大语言模型来实现通用的多模态嵌入
    AI
  • 北京航空航天大学和微软的研究人员推出新框架E5-V,,它利用多模态大语言模型(MLLMs)来实现通用的多模态嵌入(embeddings)。简单来说,E5-V可以帮助计算机更好地理解和处理图片和文字信息。比如,你给计算机一张 ...... 阅读全文

    优惠 新型多模态大语言模型DenseFusion-1M:通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力

  • 新型多模态大语言模型DenseFusion-1M:通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力
    AI
  • 北京大学、北京人工智能研究院和大连理工大学的研究人员推出一种新型多模态大型语言模型DenseFusion-1M,它通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力。这些模型能够理解图像中的多个对象、文本信息 ...... 阅读全文

    优惠 新型多模态大语言模型的调优范式MAVIS:专门针对数学视觉问题解决能力的提升

  • 新型多模态大语言模型的调优范式MAVIS:专门针对数学视觉问题解决能力的提升
    AI
  • 香港中文大学、北京大学、上海人工智能实验室和甲骨文公司的研究人员推出新型多模态大语言模型的调优范式MAVIS,专门针对数学视觉问题解决能力的提升。MAVIS通过利用大型语言模型和代码能力,合成了大量的抽象图像和 ...... 阅读全文

    优惠 Multimodal Self-Instruct:多模态大语言模型在理解和推理抽象图像方面的能力

  • Multimodal Self-Instruct:多模态大语言模型在理解和推理抽象图像方面的能力
    AI
  • 浙江大学的研究人员发布论文,论文的主题是关于如何提高大型多模态模型(LMMs)在理解和推理抽象图像方面的能力。多模态模型是一种人工智能技术,它能够处理和理解多种类型的数据,如文本、图像等。然而,尽管这些模 ...... 阅读全文

    优惠 新型高效视觉投影器TokenPacker:为多模态大语言模型设计

  • 新型高效视觉投影器TokenPacker:为多模态大语言模型设计
    AI
  • 浙江大学、蚂蚁集团和香港理工大学的研究人员推出一种新型的高效视觉投影器TokenPacker,它是为多模态大语言模型(MLLM)设计的。多模态大型语言模型是一种人工智能技术,它结合了视觉识别和语言处理的能力,可以理 ...... 阅读全文

    优惠 新基准测试MM-NIAH:用来评估多模态大语言模型理解长篇多模态文档的能力

  • 新基准测试MM-NIAH:用来评估多模态大语言模型理解长篇多模态文档的能力
    AI
  • 上海人工智能实验室OpenGVLab、复旦大学、清华大学、香港中文大学、南京大学、商汤科技研究院和香港大学的研究人员推出新基准测试MM-NIAH,专门用来评估多模态大语言模型(MLLMs)理解长篇多模态文档的能力。例如, ...... 阅读全文