AI

优惠 视频到声音的转换系统Video-Foley:专门用于生成与视频内容在时间和语义上同步的声音效果

  • 视频到声音的转换系统Video-Foley:专门用于生成与视频内容在时间和语义上同步的声音效果
    AI
  • 韩国科学技术院MAC实验室推出Video-Foley系统,它是一个视频到声音的转换系统,专门用于生成与视频内容在时间和语义上同步的声音效果(Foley声)。例如,你在观看一部电影,看到一个人用木棍敲打不同材料,比如木头、金属或岩石,这些声音是与视频内容同步的。在电影制作中,这个过程称为Foley声生成,它需要人工制作,... 阅读全文

    优惠 PAB:用于加速基于扩散模型的实时视频生成

  • PAB:用于加速基于扩散模型的实时视频生成
    AI
  • 新加坡国立大学、VideoSys 团队和普渡大学的研究人员推出新技术Pyramid Attention Broadcast (PAB),它用于加速基于扩散模型的实时视频生成。这项技术的核心思想是观察到在视频生成过程中的注意力机制(attention)存在一种U形模式的冗余,即在中间的大部分步骤中,注意力的变化非常小,而... 阅读全文

    优惠 AI21实验室推出大语言模型Jamba-1.5系列

  • AI21实验室推出大语言模型Jamba-1.5系列
    AI
  • AI21实验室推出大语言模型Jamba-1.5系列,它们基于Jamba架构,融合了Transformer和Mamba模型的优势,专门针对指令调优进行了优化。Jamba-1.5有两个版本:Jamba-1.5-Large(94亿活跃参数)和Jamba-1.5-Mini(12亿活跃参数)。例如,你有一个能够理解和执行指令的智... 阅读全文

    优惠 基于 Llama 3.1的大语言模型Hermes 3:专门针对接受指令和工具使用进行了优化,具备强大的推理和创造能力

  • 基于 Llama 3.1的大语言模型Hermes 3:专门针对接受指令和工具使用进行了优化,具备强大的推理和创造能力
    AI
  • Nous Research推出基于 Llama 3.1的大语言模型Hermes 3,它专门针对接受指令和工具使用进行了优化,具备强大的推理和创造能力。Hermes 3模型以其中立的立场和高度的可控性脱颖而出,能够精确地响应用户的指令性陈述。例如,你有一个智能助手,它可以阅读你的指令,比如“列出旧金山值得一游的有趣地点”... 阅读全文

    优惠 Meta推出模型家族Sapiens:专门为理解人类视觉任务而设计的一系列模型

  • Meta推出模型家族Sapiens:专门为理解人类视觉任务而设计的一系列模型
    AI
  • Meta推出一个名为Sapiens的模型家族,它们是专门为理解人类视觉任务而设计的一系列模型。Sapiens模型经过微调,能够执行四大类与人类相关的基本视觉任务:2D姿态估计、身体部位分割、深度估计和表面法线预测。这些模型原生支持高达1K分辨率的高分辨率推理,并且通过简单地微调预训练模型,就能轻松适应个别任务。 项目主... 阅读全文

    优惠 新型基准测试GRAB:评估和推动大型多模态模型在图形分析方面的能力而设计

  • 新型基准测试GRAB:评估和推动大型多模态模型在图形分析方面的能力而设计
    AI
  • 剑桥大学和香港大学的研究人员推出新型基准测试GRAB,专为评估和推动大型多模态模型(Large Multimodal Models,简称LMMs)在图形分析方面的能力而设计。这些模型在许多视觉任务中表现出了强大的能力,但现有的基准测试对于新一代的LMMs来说已经不够有挑战性。因此,研究者们需要一个更难、更全面的测试来评... 阅读全文

    优惠 新型视频基础模型TWLV-I:提高对视频内容的理解和分析能力,特别是在识别视频中的对象外观和运动方面

  • 新型视频基础模型TWLV-I:提高对视频内容的理解和分析能力,特别是在识别视频中的对象外观和运动方面
    AI
  • Twelve Labs推出一种新型视频基础模型TWLV-I,这个模型的目的是提高对视频内容的理解和分析能力,特别是在识别视频中的对象外观(appearance)和运动(motion)方面。例如,一个安全摄像头捕捉到一个场景,TWLV-I可以帮助识别场景中的人是否在进行可疑活动,或者在体育赛事中,它能够识别运动员的具体动... 阅读全文

    优惠 AI生成图像的水印技术的脆弱性,特别是它们在面对视觉改写攻击时的鲁棒性

  • AI生成图像的水印技术的脆弱性,特别是它们在面对视觉改写攻击时的鲁棒性
    AI
  • 这篇论文探讨了人工智能生成图像的水印技术的脆弱性,特别是它们在面对视觉改写攻击时的鲁棒性。随着文本到图像生成系统的快速发展,例如Stable Diffusion、Midjourney、Imagen和DALL-E等模型,人们对其可能被滥用的担忧也在增加。为了应对这一问题,一些公司如Meta和Google加强了在AI生成图... 阅读全文

    优惠 Audio Match Cutting:用于在电影和视频中自动寻找和创建匹配的音频过渡

  • Audio Match Cutting:用于在电影和视频中自动寻找和创建匹配的音频过渡
    AI
  • 杜比实验室和布法罗大学的研究人员推出Audio Match Cutting,它用于在电影和视频中自动寻找和创建匹配的音频过渡。这种技术特别关注音频的匹配剪辑,即在两个镜头之间实现声音的无缝过渡,让观众在听觉上感觉平滑自然。例如,你在制作一部电影预告片,需要在两个镜头之间创建音频过渡。使用Audio Match Cutt... 阅读全文

    优惠 NeCo:用于改善预训练模型的空间表示能力,特别是在自监督学习环境中

  • NeCo:用于改善预训练模型的空间表示能力,特别是在自监督学习环境中
    AI
  • 阿姆斯特丹大学、 荷兰应用科学研究组织和奥地利科学技术研究所的研究人员推出新技术NeCo(Patch Neighbor Consistency),用于改善预训练模型的空间表示能力,特别是在自监督学习环境中。NeCo通过对学生和教师模型之间的补丁级最近邻一致性进行排序,增强了模型对图像中各个部分特征的理解和表达。 论文:... 阅读全文

    优惠 新技术SpaRP:能够从稀疏视角的二维图像中快速重建出三维物体,并估计它们的相对姿态

  • 新技术SpaRP:能够从稀疏视角的二维图像中快速重建出三维物体,并估计它们的相对姿态
    AI
  • 加州大学圣地亚哥分校、Hillbot 、 浙江大学和加州大学洛杉矶分校的研究人员推出新技术SpaRP(Sparse-view Reconstruction and Pose estimation),它能够从稀疏视角的二维图像中快速重建出三维物体,并估计它们的相对姿态。这项技术对于现实世界中的许多应用来说都非常关键,比如... 阅读全文

    优惠 高效光学流估计方法NeuFlow v2:能够在边缘设备上实现实时高精度的光学流计算

  • 高效光学流估计方法NeuFlow v2:能够在边缘设备上实现实时高精度的光学流计算
    AI
  • 高效光学流估计方法NeuFlow v2,它能够在边缘设备上实现实时高精度的光学流计算。光学流是计算机视觉中的一个概念,用于描述图像中物体运动的模式,这在自动驾驶、机器人导航、增强现实等领域有着重要应用。例如,在自动驾驶中,NeuFlow v2能够实时提供周围车辆、行人和障碍物的运动信息,这对于预测它们的行动轨迹和做出避... 阅读全文