AI视频

优惠 英伟达推出MaskedMimic:用于控制虚拟角色动作的人工智能系统

  • 英伟达推出MaskedMimic:用于控制虚拟角色动作的人工智能系统
    AI
  • 英伟达推出MaskedMimic,它是一个用于控制虚拟角色动作的人工智能系统。想象一下,我们想要创造一个能够根据我们给定的条件做出各种动作的虚拟角色,比如在虚拟现实游戏中的人物或者电影里的动画角色。MaskedMimic就是专门用来实现这一目标的。 项目主页:https://research.nvidia.com/la... 阅读全文

    优惠 DAC:基于扩散模型的音频字幕生成,利用扩散模型来为音频内容生成描述性文字的技术

  • DAC:基于扩散模型的音频字幕生成,利用扩散模型来为音频内容生成描述性文字的技术
    AI
  • 腾讯AI实验室、北京理工大学、中国科学院自动化研究所的研究人员推出一种名为“基于扩散模型的音频字幕生成”(Diffusion-based Audio Captioning,简称DAC)的技术。这是一种利用扩散模型来为音频内容生成描述性文字的技术,旨在提高音频理解及其在多媒体应用中的性能。扩散模型是一种生成模型,它通过在... 阅读全文

    优惠 DualGS:用于创建沉浸式的、以人为中心的体积视频

  • DualGS:用于创建沉浸式的、以人为中心的体积视频
    AI
  • 上海科技大学的研究人员推出一种名为“Robust Dual Gaussian Splatting”的技术,用于创建沉浸式的、以人为中心的体积视频。这项技术可以让我们像在虚拟现实世界中一样,全方位地观看和体验数字化的人类表演。 项目主页:https://nowheretrix.github.io/DualGS 主要功能:... 阅读全文

    优惠 视频压缩方法OD-VAE:提高潜在视频扩散模型(LVDMs)的效率而设计

  • 视频压缩方法OD-VAE:提高潜在视频扩散模型(LVDMs)的效率而设计
    AI
  • 北京大学、程鹏实验室、兔展智能的研究人员推出视频压缩方法OD-VAE,它是为了提高潜在视频扩散模型(LVDMs)的效率而设计的。OD-VAE的核心目标是在保持视频重建质量的同时,尽可能地压缩视频数据,以便在生成视频时减少计算资源的消耗。例如,你是一名视频游戏开发者,需要生成大量的游戏内动画。使用OD-VAE,你可以将这... 阅读全文

    优惠 新型时间序列预测方法VISIONTS:将时间序列数据视为图像,利用在图像上预训练的模型来进行预测

  • 新型时间序列预测方法VISIONTS:将时间序列数据视为图像,利用在图像上预训练的模型来进行预测
    AI
  • 浙江大学、道富科技(浙江)有限公司、Salesforce 亚洲研究中心的研究人员推出一种新型的时间序列预测方法,名为VISIONTS。时间序列预测是一种预测未来数据点的技术,这些数据点是按照时间顺序排列的,比如股票价格、气温变化或者网站流量等。 GitHub:https://github.com/Keytoyze/Vi... 阅读全文

    优惠 新型人工智能代理Anim-Director:一个强大的多模态大型模型驱动的动画视频生成器

  • 新型人工智能代理Anim-Director:一个强大的多模态大型模型驱动的动画视频生成器
    AI
  • 哈尔滨工业大学(深圳)推出新型人工智能代理Anim-Director,它是一个强大的多模态大型模型(LMMs)驱动的动画视频生成器。简单来说,Anim-Director就像一个虚拟的动画导演,能够根据简短的叙述或指令,自动创作出连贯、内容丰富的动画视频。例如,一个小朋友想讲述一个关于小猫和小狗在花园玩耍的故事,Anim... 阅读全文

    优惠 视频到声音的转换系统Video-Foley:专门用于生成与视频内容在时间和语义上同步的声音效果

  • 视频到声音的转换系统Video-Foley:专门用于生成与视频内容在时间和语义上同步的声音效果
    AI
  • 韩国科学技术院MAC实验室推出Video-Foley系统,它是一个视频到声音的转换系统,专门用于生成与视频内容在时间和语义上同步的声音效果(Foley声)。例如,你在观看一部电影,看到一个人用木棍敲打不同材料,比如木头、金属或岩石,这些声音是与视频内容同步的。在电影制作中,这个过程称为Foley声生成,它需要人工制作,... 阅读全文

    优惠 新技术框架ReSyncer:用于创建统一的音频-视觉同步的面部表演者的系统

  • 新技术框架ReSyncer:用于创建统一的音频-视觉同步的面部表演者的系统
    AI
  • 清华大学、百度公司、中关村实验室和南洋理工大学的研究人员推出新技术框架ReSyncer,它是一个用于创建统一的音频-视觉同步的面部表演者的系统。简单来说,ReSyncer能够根据给定的音频生成口型同步的视频,并且能够进一步传递目标人物的说话风格和身份特征。ReSyncer在不同方面的性能,包括与现有技术的比较、定量和定... 阅读全文

    优惠 大规模文本到视频生成数据集VIDGEN-1M:为了提升文本到视频模型的训练效果而特别设计的,它通过精细的筛选和标注过程,提供了高质量的视频和详细的文本描述

  • 大规模文本到视频生成数据集VIDGEN-1M:为了提升文本到视频模型的训练效果而特别设计的,它通过精细的筛选和标注过程,提供了高质量的视频和详细的文本描述
    AI
  • 复旦大学和上海人工智能科学研究院的研究人员推出大规模文本到视频生成数据集VIDGEN-1M,这个数据集是为了提升文本到视频模型的训练效果而特别设计的,它通过精细的筛选和标注过程,提供了高质量的视频和详细的文本描述。例如,你想要制作一个关于海滩日落的视频,你可以给模型一个文本描述,比如“一个男人戴着红帽子,穿着灰色衬衫站... 阅读全文

    优惠 ExAvatar:可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身

  • ExAvatar:可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身
    AI
  • DGIST 和Meta的研究人员推出ExAvatar,它可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身(3D avatar)。ExAvatar不仅能够模拟人体的运动,还能模拟面部表情和手部动作,这些都是人们表达情感和与世界互动的重要方式。例如,你录制了一段自己跳舞的视频,使用ExAvatar技术,可以从这段... 阅读全文

    优惠 Reenact Anything:实现一种语义视频运动转移的功能,可以让一张静态图片中的对象动起来,模仿另一个视频中的运动

  • Reenact Anything:实现一种语义视频运动转移的功能,可以让一张静态图片中的对象动起来,模仿另一个视频中的运动
    AI
  • 瑞士苏黎世联邦理工学院和迪士尼研究工作室的研究人员推出Reenact Anything,它能够实现一种语义视频运动转移的功能。简单来说,这项技术可以让一张静态图片中的对象动起来,模仿另一个视频中的运动。这不是简单的模仿动作,而是在保持原有图片外观和布局的同时,让图片中的对象按照视频里的动作进行“表演”。 例如,你有一张... 阅读全文

    优惠  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计

  •  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计
    AI
  • 新基准测试LONGVIDEOBENCH,它是为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计的。这个基准测试特别关注那些能够处理长达一小时的视频内容的模型。论文还提到了LONGVIDEOBENCH的挑战性,即使是最先进的专有模型(如GPT-4o、Gemini-1.5-Pro)也面临挑战,而开源模型... 阅读全文