人工智能

优惠 Meta推出模型家族Sapiens:专门为理解人类视觉任务而设计的一系列模型

  • Meta推出模型家族Sapiens:专门为理解人类视觉任务而设计的一系列模型
    AI
  • Meta推出一个名为Sapiens的模型家族,它们是专门为理解人类视觉任务而设计的一系列模型。Sapiens模型经过微调,能够执行四大类与人类相关的基本视觉任务:2D姿态估计、身体部位分割、深度估计和表面法线预测。这些模型原生支持高达1K分辨率的高分辨率推理,并且通过简单地微调预训练模型,就能轻松适应个别任务。 项目主... 阅读全文

    优惠 新型基准测试GRAB:评估和推动大型多模态模型在图形分析方面的能力而设计

  • 新型基准测试GRAB:评估和推动大型多模态模型在图形分析方面的能力而设计
    AI
  • 剑桥大学和香港大学的研究人员推出新型基准测试GRAB,专为评估和推动大型多模态模型(Large Multimodal Models,简称LMMs)在图形分析方面的能力而设计。这些模型在许多视觉任务中表现出了强大的能力,但现有的基准测试对于新一代的LMMs来说已经不够有挑战性。因此,研究者们需要一个更难、更全面的测试来评... 阅读全文

    优惠 新型视频基础模型TWLV-I:提高对视频内容的理解和分析能力,特别是在识别视频中的对象外观和运动方面

  • 新型视频基础模型TWLV-I:提高对视频内容的理解和分析能力,特别是在识别视频中的对象外观和运动方面
    AI
  • Twelve Labs推出一种新型视频基础模型TWLV-I,这个模型的目的是提高对视频内容的理解和分析能力,特别是在识别视频中的对象外观(appearance)和运动(motion)方面。例如,一个安全摄像头捕捉到一个场景,TWLV-I可以帮助识别场景中的人是否在进行可疑活动,或者在体育赛事中,它能够识别运动员的具体动... 阅读全文

    优惠 AI生成图像的水印技术的脆弱性,特别是它们在面对视觉改写攻击时的鲁棒性

  • AI生成图像的水印技术的脆弱性,特别是它们在面对视觉改写攻击时的鲁棒性
    AI
  • 这篇论文探讨了人工智能生成图像的水印技术的脆弱性,特别是它们在面对视觉改写攻击时的鲁棒性。随着文本到图像生成系统的快速发展,例如Stable Diffusion、Midjourney、Imagen和DALL-E等模型,人们对其可能被滥用的担忧也在增加。为了应对这一问题,一些公司如Meta和Google加强了在AI生成图... 阅读全文

    优惠 Audio Match Cutting:用于在电影和视频中自动寻找和创建匹配的音频过渡

  • Audio Match Cutting:用于在电影和视频中自动寻找和创建匹配的音频过渡
    AI
  • 杜比实验室和布法罗大学的研究人员推出Audio Match Cutting,它用于在电影和视频中自动寻找和创建匹配的音频过渡。这种技术特别关注音频的匹配剪辑,即在两个镜头之间实现声音的无缝过渡,让观众在听觉上感觉平滑自然。例如,你在制作一部电影预告片,需要在两个镜头之间创建音频过渡。使用Audio Match Cutt... 阅读全文

    优惠 NeCo:用于改善预训练模型的空间表示能力,特别是在自监督学习环境中

  • NeCo:用于改善预训练模型的空间表示能力,特别是在自监督学习环境中
    AI
  • 阿姆斯特丹大学、 荷兰应用科学研究组织和奥地利科学技术研究所的研究人员推出新技术NeCo(Patch Neighbor Consistency),用于改善预训练模型的空间表示能力,特别是在自监督学习环境中。NeCo通过对学生和教师模型之间的补丁级最近邻一致性进行排序,增强了模型对图像中各个部分特征的理解和表达。 论文:... 阅读全文

    优惠 新技术SpaRP:能够从稀疏视角的二维图像中快速重建出三维物体,并估计它们的相对姿态

  • 新技术SpaRP:能够从稀疏视角的二维图像中快速重建出三维物体,并估计它们的相对姿态
    AI
  • 加州大学圣地亚哥分校、Hillbot 、 浙江大学和加州大学洛杉矶分校的研究人员推出新技术SpaRP(Sparse-view Reconstruction and Pose estimation),它能够从稀疏视角的二维图像中快速重建出三维物体,并估计它们的相对姿态。这项技术对于现实世界中的许多应用来说都非常关键,比如... 阅读全文

    优惠 高效光学流估计方法NeuFlow v2:能够在边缘设备上实现实时高精度的光学流计算

  • 高效光学流估计方法NeuFlow v2:能够在边缘设备上实现实时高精度的光学流计算
    AI
  • 高效光学流估计方法NeuFlow v2,它能够在边缘设备上实现实时高精度的光学流计算。光学流是计算机视觉中的一个概念,用于描述图像中物体运动的模式,这在自动驾驶、机器人导航、增强现实等领域有着重要应用。例如,在自动驾驶中,NeuFlow v2能够实时提供周围车辆、行人和障碍物的运动信息,这对于预测它们的行动轨迹和做出避... 阅读全文

    优惠 新型视觉模型MM-SAM:处理多种传感器数据,进行鲁棒且准确的场景分割

  • 新型视觉模型MM-SAM:处理多种传感器数据,进行鲁棒且准确的场景分割
    AI
  • 新加坡南洋理工大学、日本东京大学、RIKEN AIP和日本奈良科学技术大学的研究人员推出新型视觉模型MM-SAM(Multi-Modal Segment Anything Model),它能够处理多种传感器数据,进行鲁棒且准确的场景分割。场景分割是一种让计算机识别并区分图像中各个物体或区域的技术,这项技术在自动驾驶、机... 阅读全文

    优惠 新型3D重建模型MeshFormer:通过少量的多视角RGB图像和它们的法线图作为输入,快速生成具有精细几何细节的高质量3D纹理网格

  • 新型3D重建模型MeshFormer:通过少量的多视角RGB图像和它们的法线图作为输入,快速生成具有精细几何细节的高质量3D纹理网格
    AI
  • 加州大学圣地亚哥分校、Hillbot 、 浙江大学和加州大学洛杉矶分校的研究人员推出新型3D重建模型MeshFormer,它能够通过少量的多视角RGB图像和它们的法线图作为输入,快速生成具有精细几何细节的高质量3D纹理网格。简单来说,MeshFormer就像一个高级的3D摄影师,能够用几张不同角度的照片,迅速复原出一个... 阅读全文

    优惠 为处理长视频内容而设计的多模态视觉语言模型LongVILA

  • 为处理长视频内容而设计的多模态视觉语言模型LongVILA
    AI
  • 英伟达、麻省理工学院、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员推出LongVILA系统,它是一个为处理长视频内容而设计的多模态视觉语言模型。例如,我们有一段非常长的视频,比如一场足球比赛或者一个长时间的教学视频,我们需要一个智能系统来理解视频中的内容,甚至能够根据视频内容生成描述或者回答有关视频的问题。Lo... 阅读全文

    优惠 JPEG-LM:将大语言模型应用于图像和视频生成领域,通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频

  • JPEG-LM:将大语言模型应用于图像和视频生成领域,通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频
    AI
  • 华盛顿大学和Meta的研究人员发布论文,论文的主题是探讨如何将大语言模型(LLMs)应用于图像和视频生成领域,提出了一种新颖的方法,即通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频。这种方法与传统的基于像素值或向量量化的方法不同,它直接处理压缩文件字节,从而简化了视觉数据的离散化过程。例... 阅读全文