AI

优惠 DualGS:用于创建沉浸式的、以人为中心的体积视频

  • DualGS:用于创建沉浸式的、以人为中心的体积视频
    AI
  • 上海科技大学的研究人员推出一种名为“Robust Dual Gaussian Splatting”的技术,用于创建沉浸式的、以人为中心的体积视频。这项技术可以让我们像在虚拟现实世界中一样,全方位地观看和体验数字化的人类表演。 项目主页:https://nowheretrix.github.io/DualGS 主要功能:... 阅读全文

    优惠 英伟达推出小型语言模型Nemotron-Mini-4B-Instruct :专为角色扮演、增强式检索生成(RAG)和功能调用等任务设计

  • 英伟达推出小型语言模型Nemotron-Mini-4B-Instruct :专为角色扮演、增强式检索生成(RAG)和功能调用等任务设计
    AI
  • 英伟达最新推出了一款名为 Nemotron-Mini-4B-Instruct的小型语言模型(SLM),这在公司长期致力于人工智能创新的历程中开启了新的篇章。这款专为角色扮演、增强式检索生成(RAG)和功能调用等任务设计的模型,是 英伟达 更大型模型的精简而高效版本。现在,让我们深入了解 Nemotron-Mini-4B... 阅读全文

    优惠 SyncOOD:用于改善目标检测模型在面对未知或非训练集中类别(即“离群点”或“OOD”对象)时的性能的技术

  • SyncOOD:用于改善目标检测模型在面对未知或非训练集中类别(即“离群点”或“OOD”对象)时的性能的技术
    AI
  • 香港大学的研究人员推出SyncOOD,它是一种用于改善目标检测模型在面对未知或非训练集中类别(即“离群点”或“OOD”对象)时的性能的技术。SyncOOD通过利用大规模开放数据集训练的生成模型来合成OOD样本,从而增强OOD目标检测。 GitHub:https://github.com/CVMI-Lab/SyncOOD... 阅读全文

    优惠 新型大型视频-语言模型PiTe:通过一种称为“像素-时间对齐”的技术,提高了模型理解和生成视频内容的能力

  • 新型大型视频-语言模型PiTe:通过一种称为“像素-时间对齐”的技术,提高了模型理解和生成视频内容的能力
    AI
  • 西湖大学和苏州大学的研究人员推出新型大型视频-语言模型PiTe,它通过一种称为“像素-时间对齐”的技术,提高了模型理解和生成视频内容的能力。PiTe模型的目标是通过精细的时空对齐,让机器更好地理解和回应与视频内容相关的语言指令。 论文地址:https://arxiv.org/abs/2409.07239 例如,你正在看... 阅读全文

    优惠 DreamHOI:用于生成3D人类与物体互动场景的方法

  • DreamHOI:用于生成3D人类与物体互动场景的方法
    AI
  • 牛津大学和卡内基 梅隆大学的研究人员推出DreamHOI,它是一种用于生成3D人类与物体互动场景的方法。这种方法能够根据文本描述,让一个3D人体模型与任何给定的物体进行逼真的互动。例如,你是一位电影导演,需要在电影中创建一个场景,其中演员需要与某个特定的物体进行互动,比如坐在椅子上或举起一个重物。传统的3D建模方法可能... 阅读全文

    优惠 微软推出评估平台WINDOWSAGENTARENA:专门用来测试和提升计算机代理在Windows操作系统中执行多模态任务的能力

  • 微软推出评估平台WINDOWSAGENTARENA:专门用来测试和提升计算机代理在Windows操作系统中执行多模态任务的能力
    AI
  • 微软、卡内基梅隆大学和哥伦比亚大学的研究人员推出评估平台WINDOWSAGENTARENA,它专门用来测试和提升计算机代理(也就是我们通常说的“智能助手”或“机器人”)在Windows操作系统中执行多模态任务的能力。这些任务包括但不限于文本处理、网页浏览、使用各种应用程序等。 项目主页:https://microsof... 阅读全文

    优惠 谷歌推出AI 辅助工具 NotebookLM:专为提升研究和写作效率而生

  • 谷歌推出AI 辅助工具 NotebookLM:专为提升研究和写作效率而生
    AI
  • 在信息爆炸的时代,如何高效地处理和利用资讯成为了一个挑战。谷歌最新推出的 AI 辅助工具 NotebookLM 正是为了解决这一问题而来,它将作为你的专属研究助理,助你轻松驾驭资讯洪流,高效产出高品质内容!NotebookLM 是一款基于 AI 技术的强大工具,专为提升研究和写作效率而生。它就像一位博学多闻的助手,能够... 阅读全文

    优惠 元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B

  • 元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B
    AI
  • 加速AI应用低成本部署,国产开源技术迈入国际领先行列。元象XVERSE最新发布的XVERSE-MoE-A36B模型,以其卓越的性能和效率,为AI领域带来革命性的变革。元象「高性能全家桶」系列模型全面开源,无条件免费商用,满足广大中小企业、研究者和开发者的需求。 模型亮点 参数规模:总参数达255B,激活参数36B,实现... 阅读全文

    优惠 TransGS:用于生成高质量、可交互式面部渲染的智能代理

  • TransGS:用于生成高质量、可交互式面部渲染的智能代理
    AI
  • 香港大学、上海科技大学、影眸科技和Adob​​e Research的研究人员推出TransGS,它是一个用于生成高质量、可交互式面部渲染的智能代理。TransGS 的核心功能是将基于物理的面部资产(例如,3D 面部模型)转换成一种名为 GauFace 的新型高斯表示,以便实现高效、实时的面部动画和渲染。 项目主页:ht... 阅读全文

    优惠 VMAS框架:能够从视频输入中学习生成背景音乐

  • VMAS框架:能够从视频输入中学习生成背景音乐
    AI
  • 北卡罗来纳大学教堂山分校计算机科学系和字节跳动的研究人员推出VMAS框架,它能够从视频输入中学习生成背景音乐。与以往依赖于符号音乐注释(如 MIDI 文件)的方法不同,VMAS 利用了大规模的网络视频和伴随的背景音乐,使模型能够学习生成真实且多样化的音乐。 项目主页:https://genjib.github.io/p... 阅读全文

    优惠 为新视角合成任务而设计的智能代理MVLLaVA

  • 为新视角合成任务而设计的智能代理MVLLaVA
    AI
  • 中国科学院大学的研究人员推出智能代理MVLLaVA ,它专为新视角合成任务而设计。MVLLaVA 通过将多个多视图扩散模型与一个大型多模态模型 LLaVA 结合,能够高效处理广泛的任务。这个系统能够适应多种输入类型,包括单个图像、描述性标题,或者在语言指令的引导下改变观察视角。 项目主页:https://jamesjg... 阅读全文

    优惠 新型基准测试PingPong:专门用来评估语言模型在角色扮演方面的能力

  • 新型基准测试PingPong:专门用来评估语言模型在角色扮演方面的能力
    AI
  • 独立研究人员Ilya Gusev推出新型基准测试PingPong,它专门用来评估语言模型在角色扮演方面的能力。你可以把它想象成一个高级的“过家家”游戏,但是这里的玩家不是真人,而是人工智能(AI)模型。在这个游戏中,AI模型需要扮演特定的角色,并且与用户进行互动,就像真人一样进行对话。 项目主页:https://ily... 阅读全文