人工智能

优惠 SonicSim:一个可定制的模拟平台,用于处理移动声源场景中的语音

  • SonicSim:一个可定制的模拟平台,用于处理移动声源场景中的语音
    AI
  • 清华大学和日本国立信息研究所的研究人员推出仿真工具SonicSim,以及一个基于此工具生成的大规模合成数据集SonicSet。SonicSim专门用于模拟移动声源场景下的语音处理任务,如语音分离和增强。例如,你正在开发一个智能会议系统,需要从会议录音中分离出每个发言者的语音。使用SonicSim,你可以创建一个模拟会议... 阅读全文

    优惠 英伟达推出一种用于无标签多教师知识蒸馏的方法PHI-S

  • 英伟达推出一种用于无标签多教师知识蒸馏的方法PHI-S
    AI
  • 英伟达推出一种名为PHI-S(PHI Standardization)的技术,它是一种用于无标签多教师知识蒸馏的方法。知识蒸馏是一种技术,它允许一个“学生”模型去学习并模仿一个或多个“教师”模型的行为,而不需要直接访问训练数据。PHI-S特别关注于如何平衡和标准化来自不同教师模型的特征激活分布,以便学生模型可以更准确地... 阅读全文

    优惠 新型框架OPEN-RAG:增强大语言模型(LLMs)的推理能力

  • 新型框架OPEN-RAG:增强大语言模型(LLMs)的推理能力
    AI
  • 孟加拉国工程技术大学、北德克萨斯大学、加拿大约克大学、Salesforce Research、卡塔尔计算研究所 (QCRI)、Fatima Al-Fihri 博士前奖学金和Cohere For AI Community的研究人员推出新型框架OPEN-RAG,它旨在增强大语言模型(LLMs)的推理能力,特别是当这些模型是... 阅读全文

    优惠 RSRD:让机器人通过观看人类的单眼(monocular)视频演示来学习操纵有活动部件的物体

  • RSRD:让机器人通过观看人类的单眼(monocular)视频演示来学习操纵有活动部件的物体
    AI
  • 加州大学伯克利分校的研究人员推出一种名为“Robot See Robot Do”(RSRD)的新方法,它能让机器人通过观看人类的单眼(monocular)视频演示来学习操纵有活动部件的物体。这种方法可以用于多种场景,比如教机器人如何使用剪刀或打开工具箱等。例如,你有一个机器人,你想要教它如何使用剪刀。你可以简单地把剪刀... 阅读全文

    优惠 新颖的高斯喷射框架Disco4D:用于从单张图像生成和动画化4D人体

  • 新颖的高斯喷射框架Disco4D:用于从单张图像生成和动画化4D人体
    AI
  • 南洋理工大学、商汤科技研究院和上海人工智能实验室的研究人员推出一种新颖的高斯喷射框架Disco4D,用于从单张图像生成和动画化4D人体。简单来说,如果你给Disco4D一张人的图片,它能基于这张图片创建出一个详细的3D模型,并且让这个模型动起来。例如,你是一名服装设计师,想要展示新系列的服装。你可以拍摄模特的照片,然后... 阅读全文

    优惠 新型大型多模态模型LLaVA-3D:能够理解和处理三维(3D)空间信息,而不仅仅是传统的二维(2D)图像和视频

  • 新型大型多模态模型LLaVA-3D:能够理解和处理三维(3D)空间信息,而不仅仅是传统的二维(2D)图像和视频
    AI
  • 香港大学和上海人工智能实验室的研究人员推出新型大型多模态模型LLaVA-3D,它能够理解和处理三维(3D)空间信息,而不仅仅是传统的二维(2D)图像和视频。想象一下,你有一个AI助手,不仅能看懂图片和文字,还能理解图片中的物体在三维空间中的位置和关系,比如它们是靠近还是远离,或者它们之间的相互位置。 项目主页:http... 阅读全文

    优惠 多模态大语言模型EMOVA:使大语言模型具备端到端的语音能力,同时保持领先的视觉-语言性能。

  • 多模态大语言模型EMOVA:使大语言模型具备端到端的语音能力,同时保持领先的视觉-语言性能。
    AI
  • 香港科技大学、香港大学,、华为诺亚方舟实验室、香港中文大学、中山大学和南方科技大学的研究人员推出多模态大语言模型EMOVA,使大语言模型具备端到端的语音能力,同时保持领先的视觉-语言性能。通过一个语义-声学解耦的语音标记器,研究团队发现全模态对齐可以进一步增强视觉-语言和语音能力,相比于双模态对齐。此外,我们提出了一个... 阅读全文

    优惠 可学习剪枝方法MaskLLM:通过在大语言模型中建立半结构化(或“N:M”)稀疏性来减少推理过程中的计算开销

  • 可学习剪枝方法MaskLLM:通过在大语言模型中建立半结构化(或“N:M”)稀疏性来减少推理过程中的计算开销
    AI
  • 英伟达和新加坡国立大学的研究人员推出可学习剪枝方法MaskLLM,旨在通过在大语言模型中建立半结构化(或“N:M”)稀疏性来减少推理过程中的计算开销。MaskLLM不采用新的重要性标准,而是通过Gumbel Softmax采样将N:M模式显式建模为可学习的分布。这种方法促进了对大规模数据集的端到端训练,并具有两个显著优... 阅读全文

    优惠 新型多模态方法MonoFormer:核心思想是使用单一的Transformer来处理两种不同的生成任务

  • 新型多模态方法MonoFormer:核心思想是使用单一的Transformer来处理两种不同的生成任务
    AI
  • 百度 VIS 和悉尼科技大学的研究人员推出一种新型多模态方法,称为MonoFormer。这个方法的核心思想是使用单一的Transformer来处理两种不同的生成任务:基于自回归(autoregression)的离散文本生成和基于扩散(diffusion)的连续视觉生成。例如,你有一台机器,它可以读取一段文本然后创造出与... 阅读全文

    优惠 TIME-MOE:用于时间序列预测的大规模基础模型

  • TIME-MOE:用于时间序列预测的大规模基础模型
    AI
  • 普林斯顿大学、松鼠AI学习和格里菲斯大学的研究人员推出新框架TIME-MOE,它是一个用于时间序列预测的大规模基础模型。TIME-MOE的核心是一个新颖的、高效的解码器-只有的Transformer模型,它采用了专家混合(MoE)架构,能够在保持高性能的同时减少计算成本。 GitHub:https://github.c... 阅读全文

    优惠 新型框架TalkinNeRF:能够从单目视频学习动态的NeRF,以此来创建能够进行全身动作和说话的三维人物动画。

  • 新型框架TalkinNeRF:能够从单目视频学习动态的NeRF,以此来创建能够进行全身动作和说话的三维人物动画。
    AI
  • 石溪大学、Meta和Flawless AI的研究人员推出新型框架TalkinNeRF,它能够从单目视频(即只有一个摄像头拍摄的视频)学习动态的神经辐射场(NeRF),以此来创建能够进行全身动作和说话的三维人物动画。简单来说,这项技术可以根据你提供的视频,生成一个能够模仿视频中人物动作和表情的虚拟三维人物。 项目主页:h... 阅读全文

    优惠 新型3D框架DreamWaltz-G:根据文本描述生成具有表现力的3D高斯化身(即3D头像),并且这些头像可以进行动画化处理

  • 新型3D框架DreamWaltz-G:根据文本描述生成具有表现力的3D高斯化身(即3D头像),并且这些头像可以进行动画化处理
    AI
  • 香港大学、星尘智能、腾讯、中国科学技术大学和国际数字经济学院(IDEA)的研究人员推出新型框架DreamWaltz-G,它能够根据文本描述生成具有表现力的3D高斯化身(即3D头像),并且这些头像可以进行动画化处理。简单来说,这项技术可以根据你提供的描述文字,比如“穿着舞会礼服的女性”,自动创造出一个3D的、可以动的虚拟... 阅读全文