AI

优惠 新型视觉模型MM-SAM:处理多种传感器数据,进行鲁棒且准确的场景分割

  • 新型视觉模型MM-SAM:处理多种传感器数据,进行鲁棒且准确的场景分割
    AI
  • 新加坡南洋理工大学、日本东京大学、RIKEN AIP和日本奈良科学技术大学的研究人员推出新型视觉模型MM-SAM(Multi-Modal Segment Anything Model),它能够处理多种传感器数据,进行鲁棒且准确的场景分割。场景分割是一种让计算机识别并区分图像中各个物体或区域的技术,这项技术在自动驾驶、机... 阅读全文

    优惠 新型3D重建模型MeshFormer:通过少量的多视角RGB图像和它们的法线图作为输入,快速生成具有精细几何细节的高质量3D纹理网格

  • 新型3D重建模型MeshFormer:通过少量的多视角RGB图像和它们的法线图作为输入,快速生成具有精细几何细节的高质量3D纹理网格
    AI
  • 加州大学圣地亚哥分校、Hillbot 、 浙江大学和加州大学洛杉矶分校的研究人员推出新型3D重建模型MeshFormer,它能够通过少量的多视角RGB图像和它们的法线图作为输入,快速生成具有精细几何细节的高质量3D纹理网格。简单来说,MeshFormer就像一个高级的3D摄影师,能够用几张不同角度的照片,迅速复原出一个... 阅读全文

    优惠 为处理长视频内容而设计的多模态视觉语言模型LongVILA

  • 为处理长视频内容而设计的多模态视觉语言模型LongVILA
    AI
  • 英伟达、麻省理工学院、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员推出LongVILA系统,它是一个为处理长视频内容而设计的多模态视觉语言模型。例如,我们有一段非常长的视频,比如一场足球比赛或者一个长时间的教学视频,我们需要一个智能系统来理解视频中的内容,甚至能够根据视频内容生成描述或者回答有关视频的问题。Lo... 阅读全文

    优惠 JPEG-LM:将大语言模型应用于图像和视频生成领域,通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频

  • JPEG-LM:将大语言模型应用于图像和视频生成领域,通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频
    AI
  • 华盛顿大学和Meta的研究人员发布论文,论文的主题是探讨如何将大语言模型(LLMs)应用于图像和视频生成领域,提出了一种新颖的方法,即通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频。这种方法与传统的基于像素值或向量量化的方法不同,它直接处理压缩文件字节,从而简化了视觉数据的离散化过程。例... 阅读全文

    优惠 用于开发大型多模态模型的新框架xGen-MM

  • 用于开发大型多模态模型的新框架xGen-MM
    AI
  • Salesforce AI 研究和华盛顿大学的研究人员推出新框架xGen-MM(也被称为BLIP-3),它是用于开发大型多模态模型(LMMs)的。多模态模型,你可以想象成一种超级大脑,不仅能理解文本(比如书籍、网页上的文字),还能理解图片和视频。xGen-MM框架包含了数据集、训练方法、模型架构,以及一系列经过这些训练... 阅读全文

    优惠 阿里巴巴推出多模态大语言模型mPLUG-Owl3

  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3
    AI
  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3,它在处理单图像、多图像和视频任务方面取得了显著的进展。例如,你向mPLUG-Owl3展示一系列图片,并询问其中的天气情况,模型可以分析这些图片并告诉你哪一张是雪天。或者,如果你展示一段视频,并要求模型按时间顺序描述视频中的事件,mPLUG-Owl3可以准确地按照视频中的... 阅读全文

    优惠 HeadGAP:可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像

  • HeadGAP:可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像
    AI
  • 字节跳动和上海科技大学的研究人员推出HeadGAP,它可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像。想象一下,如果你只有一张自己的照片,HeadGAP能够用它来生成一个看起来非常像你,并且可以做出各种表情的3D头像。例如,一个用户想要在虚拟现实世界中拥有一个代表自己的3D头像,他只需要提供一张或几张... 阅读全文

    优惠 新型机器人触觉表示学习方法UniT:帮助机器人更好地理解和使用这种触觉信息

  • 新型机器人触觉表示学习方法UniT:帮助机器人更好地理解和使用这种触觉信息
    AI
  • 普渡大学和阿肯色大学的研究人员推出新型机器人触觉表示学习方法UniT,机器人需要通过触觉来感知和操作物体,就像人类通过手触摸东西一样。UniT就是帮助机器人更好地理解和使用这种触觉信息的一种技术。此外,论文还讨论了UniT在未来可能的研究方向,比如将其扩展到软物体的触觉表示学习,以及开发能够理解物理属性的触觉表示。这些... 阅读全文

    优惠 OpenResearcher:利用人工智能(AI)技术来加速科学研究进程

  • OpenResearcher:利用人工智能(AI)技术来加速科学研究进程
    AI
  • 创新平台OpenResearcher,它利用人工智能(AI)技术来加速科学研究进程。想象一下,研究人员每天都在与成堆的学术论文打交道,试图跟上他们领域内的最新进展,这既耗时又费力。OpenResearcher就像一个智能助手,可以帮助研究人员快速找到他们需要的信息,节省时间,提高研究效率。例如,如果一个生物医学研究人员... 阅读全文

    优惠 新型大语言模型LongWriter:能够生成超过10,000个词的超长文本

  • 新型大语言模型LongWriter:能够生成超过10,000个词的超长文本
    AI
  • 清华大学和智谱AI的研究人员推出新型大语言模型LongWriter,它能够生成超过10,000个词的超长文本。这在人工智能领域是一个重要的突破,因为现有的大型语言模型虽然能够处理长达100,000个词的输入,但在生成文本时却难以超过2,000个词的限制。例如,你是一位历史学家,需要写一篇关于罗马帝国历史的深入分析文章。... 阅读全文

    优惠 新型图像编辑工具MVInpainter:能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑

  • 新型图像编辑工具MVInpainter:能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑
    AI
  • 复旦大学、 阿里巴巴达摩院和湖畔实验室的研究人员推出新型图像编辑工具MVInpainter,它能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑。简单来说,MVInpainter能够在多个视角的图像中,对缺失或需要编辑的部分进行智能填充和修复,使得编辑后的图像在不同视角下保持一致性。 ... 阅读全文

    优惠 新型高保真度、高效率的波形生成模型PeriodWave-Turbo:通过对抗性流匹配优化来加速生成高质量的波形信号

  • 新型高保真度、高效率的波形生成模型PeriodWave-Turbo:通过对抗性流匹配优化来加速生成高质量的波形信号
    AI
  • 韩国亚洲大学的研究人员推出新型高保真度、高效率的波形生成模型PeriodWave-Turbo,它通过对抗性流匹配优化(Adversarial Flow Matching Optimization)来加速生成高质量的波形信号。想象一下,你想要制作一段音乐或者合成一段语音,但希望这个过程既快速又能够达到专业水准的音质。Pe... 阅读全文