人工智能

优惠 新型大型视频-语言模型PiTe:通过一种称为“像素-时间对齐”的技术,提高了模型理解和生成视频内容的能力

  • 新型大型视频-语言模型PiTe:通过一种称为“像素-时间对齐”的技术,提高了模型理解和生成视频内容的能力
    AI
  • 西湖大学和苏州大学的研究人员推出新型大型视频-语言模型PiTe,它通过一种称为“像素-时间对齐”的技术,提高了模型理解和生成视频内容的能力。PiTe模型的目标是通过精细的时空对齐,让机器更好地理解和回应与视频内容相关的语言指令。 论文地址:https://arxiv.org/abs/2409.07239 例如,你正在看... 阅读全文

    优惠 DreamHOI:用于生成3D人类与物体互动场景的方法

  • DreamHOI:用于生成3D人类与物体互动场景的方法
    AI
  • 牛津大学和卡内基 梅隆大学的研究人员推出DreamHOI,它是一种用于生成3D人类与物体互动场景的方法。这种方法能够根据文本描述,让一个3D人体模型与任何给定的物体进行逼真的互动。例如,你是一位电影导演,需要在电影中创建一个场景,其中演员需要与某个特定的物体进行互动,比如坐在椅子上或举起一个重物。传统的3D建模方法可能... 阅读全文

    优惠 微软推出评估平台WINDOWSAGENTARENA:专门用来测试和提升计算机代理在Windows操作系统中执行多模态任务的能力

  • 微软推出评估平台WINDOWSAGENTARENA:专门用来测试和提升计算机代理在Windows操作系统中执行多模态任务的能力
    AI
  • 微软、卡内基梅隆大学和哥伦比亚大学的研究人员推出评估平台WINDOWSAGENTARENA,它专门用来测试和提升计算机代理(也就是我们通常说的“智能助手”或“机器人”)在Windows操作系统中执行多模态任务的能力。这些任务包括但不限于文本处理、网页浏览、使用各种应用程序等。 项目主页:https://microsof... 阅读全文

    优惠 元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B

  • 元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B
    AI
  • 加速AI应用低成本部署,国产开源技术迈入国际领先行列。元象XVERSE最新发布的XVERSE-MoE-A36B模型,以其卓越的性能和效率,为AI领域带来革命性的变革。元象「高性能全家桶」系列模型全面开源,无条件免费商用,满足广大中小企业、研究者和开发者的需求。 模型亮点 参数规模:总参数达255B,激活参数36B,实现... 阅读全文

    优惠 TransGS:用于生成高质量、可交互式面部渲染的智能代理

  • TransGS:用于生成高质量、可交互式面部渲染的智能代理
    AI
  • 香港大学、上海科技大学、影眸科技和Adob​​e Research的研究人员推出TransGS,它是一个用于生成高质量、可交互式面部渲染的智能代理。TransGS 的核心功能是将基于物理的面部资产(例如,3D 面部模型)转换成一种名为 GauFace 的新型高斯表示,以便实现高效、实时的面部动画和渲染。 项目主页:ht... 阅读全文

    优惠 VMAS框架:能够从视频输入中学习生成背景音乐

  • VMAS框架:能够从视频输入中学习生成背景音乐
    AI
  • 北卡罗来纳大学教堂山分校计算机科学系和字节跳动的研究人员推出VMAS框架,它能够从视频输入中学习生成背景音乐。与以往依赖于符号音乐注释(如 MIDI 文件)的方法不同,VMAS 利用了大规模的网络视频和伴随的背景音乐,使模型能够学习生成真实且多样化的音乐。 项目主页:https://genjib.github.io/p... 阅读全文

    优惠 为新视角合成任务而设计的智能代理MVLLaVA

  • 为新视角合成任务而设计的智能代理MVLLaVA
    AI
  • 中国科学院大学的研究人员推出智能代理MVLLaVA ,它专为新视角合成任务而设计。MVLLaVA 通过将多个多视图扩散模型与一个大型多模态模型 LLaVA 结合,能够高效处理广泛的任务。这个系统能够适应多种输入类型,包括单个图像、描述性标题,或者在语言指令的引导下改变观察视角。 项目主页:https://jamesjg... 阅读全文

    优惠 新型基准测试PingPong:专门用来评估语言模型在角色扮演方面的能力

  • 新型基准测试PingPong:专门用来评估语言模型在角色扮演方面的能力
    AI
  • 独立研究人员Ilya Gusev推出新型基准测试PingPong,它专门用来评估语言模型在角色扮演方面的能力。你可以把它想象成一个高级的“过家家”游戏,但是这里的玩家不是真人,而是人工智能(AI)模型。在这个游戏中,AI模型需要扮演特定的角色,并且与用户进行互动,就像真人一样进行对话。 项目主页:https://ily... 阅读全文

    优惠 新型模型架构LLaMA-Omni:实现与大语言模型(LLMs)的低延迟、高质量的语音交互

  • 新型模型架构LLaMA-Omni:实现与大语言模型(LLMs)的低延迟、高质量的语音交互
    AI
  • 中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室和中国科学院大学的研究人员推出新型模型架构LLaMA-Omni,它旨在实现与大语言模型(LLMs)的低延迟、高质量的语音交互。例如,你可以通过语音与一个智能系统对话,就像与一个真正的助手交谈一样,而这个系统能够即时理解你的话并给出回应。 G... 阅读全文

    优惠 视频生成音频系统Draw an Audio:根据视频内容自动生成与之匹配的声音效果

  • 视频生成音频系统Draw an Audio:根据视频内容自动生成与之匹配的声音效果
    AI
  • 中国科学院自动化研究所和美团点评的研究人员推出视频生成音频系统Draw an Audio,这个系统能够根据视频内容自动生成与之匹配的声音效果,这在电影制作中被称为“Foley”艺术。例如,你给这个系统一段没有声音的视频,比如一个人在雪地上走路,系统就能自动为这段视频生成脚步声。 项目主页:https://yannqi.... 阅读全文

    优惠 歌曲生成系统SongCreator:能创作出一首包含旋律、伴奏和歌声的完整歌曲

  • 歌曲生成系统SongCreator:能创作出一首包含旋律、伴奏和歌声的完整歌曲
    AI
  • 清华大学深圳国际研究生院、香港中文大学的研究人员推出SongCreator,它是一个基于歌词生成完整歌曲的人工智能系统。想象一下,你给SongCreator提供一段歌词,它就能创作出一首包含旋律、伴奏和歌声的完整歌曲,就像一个虚拟的音乐家。 项目主页:https://songcreator.github.io Song... 阅读全文

    优惠 基准测试“MOCHI”:评估人类观察者和计算机视觉模型在三维形状推断任务上的一致性

  • 基准测试“MOCHI”:评估人类观察者和计算机视觉模型在三维形状推断任务上的一致性
    AI
  • 加州大学伯克利分校和麻省理工学院的研究人员推出基准测试“MOCHI”,旨在评估人类观察者和计算机视觉模型在三维形状推断任务上的一致性。这个任务要求参与者从三个不同视角的图像中识别出哪个图像显示的对象是不同的。研究者们通过这个任务来比较人类的表现和多种计算机视觉模型的表现。 GitHub:https://github.c... 阅读全文