人工智能
优惠 新型大型多模态模型LLaVA-OneVision:提高计算机视觉任务的性能,特别是在处理单图像、多图像和视频场景时的能力
5个月前 (08-07)AI
这篇论文介绍了一个名为LLaVA-OneVision的新型大型多模态模型(LMMs),它是由多个机构共同开发的,包括字节跳动、南洋理工大学、香港中文大学和香港科技大学。这个模型的核心目标是提高计算机视觉任务的性能,特别是在处理单图像、多图像和视频场景时的能力。例如,你正在使用一个智能助手,你给它发送了一张你在旅行中拍摄... 阅读全文
优惠 开源框架RAG Foundry:专门用于增强大语言模型,特别是针对检索增强型生成(RAG)的应用场景
标签:RAG Foundry
AI
5个月前 (08-07)AI
英特尔实验室推出开源框架RAG Foundry,它专门用于增强大语言模型(LLMs),特别是针对检索增强型生成(Retrieval-Augmented Generation,简称RAG)的应用场景。简单来说,RAG Foundry是一个多功能工具箱,它可以帮助研究者和开发者通过整合外部信息源来提升语言模型在特定任务上的... 阅读全文
优惠 MeshAnything V2系统:能够自动生成与给定形状对齐的艺术家创造的网格的模型
5个月前 (08-07)AI
洋理工大学、清华大学、伦敦帝国理工学院和西湖大学的研究人员推出MeshAnything V2系统,它是一个能够自动生成与给定形状对齐的艺术家创造的网格(Artist-Created Meshes,简称AM)的模型。简单来说,MeshAnything V2就像一个聪明的3D设计师,可以根据你提供的形状或者描述,自动设计出... 阅读全文
优惠 评估基准MuChoMusic:专门用来测试多模态音频-语言模型在音乐理解方面的能力
标签:MuChoMusic
AI
5个月前 (08-05)AI
庞贝法布拉大学、伦敦玛丽女王大学和环球音乐集团的研究人员推出评估基准MuChoMusic,它专门用来测试多模态音频-语言模型在音乐理解方面的能力。这些模型可以同时处理音频和语言信息,对于音乐领域的理解和应用具有巨大的潜力。简单来说,MuChoMusic就像一个针对音乐理解智能的“考试”,它可以评估这些智能系统是否能够准... 阅读全文
优惠 医学图像分割模型Medical SAM 2:基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务
标签:Medical SAM 2
AI
5个月前 (08-05)AI
牛津大学的研究人员推出先进医学图像分割模型Medical SAM 2(简称MedSAM-2),MedSAM-2基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务。这个模型的核心思想是将医学图像当作视频来处理,从而不仅适用于3D图像,还开启了一种新的“一次提示分割”(One-prompt Segm... 阅读全文