AI

优惠 新型模型架构LLaMA-Omni:实现与大语言模型(LLMs)的低延迟、高质量的语音交互

  • 新型模型架构LLaMA-Omni:实现与大语言模型(LLMs)的低延迟、高质量的语音交互
    AI
  • 中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室和中国科学院大学的研究人员推出新型模型架构LLaMA-Omni,它旨在实现与大语言模型(LLMs)的低延迟、高质量的语音交互。例如,你可以通过语音与一个智能系统对话,就像与一个真正的助手交谈一样,而这个系统能够即时理解你的话并给出回应。 G... 阅读全文

    优惠 视频生成音频系统Draw an Audio:根据视频内容自动生成与之匹配的声音效果

  • 视频生成音频系统Draw an Audio:根据视频内容自动生成与之匹配的声音效果
    AI
  • 中国科学院自动化研究所和美团点评的研究人员推出视频生成音频系统Draw an Audio,这个系统能够根据视频内容自动生成与之匹配的声音效果,这在电影制作中被称为“Foley”艺术。例如,你给这个系统一段没有声音的视频,比如一个人在雪地上走路,系统就能自动为这段视频生成脚步声。 项目主页:https://yannqi.... 阅读全文

    优惠 歌曲生成系统SongCreator:能创作出一首包含旋律、伴奏和歌声的完整歌曲

  • 歌曲生成系统SongCreator:能创作出一首包含旋律、伴奏和歌声的完整歌曲
    AI
  • 清华大学深圳国际研究生院、香港中文大学的研究人员推出SongCreator,它是一个基于歌词生成完整歌曲的人工智能系统。想象一下,你给SongCreator提供一段歌词,它就能创作出一首包含旋律、伴奏和歌声的完整歌曲,就像一个虚拟的音乐家。 项目主页:https://songcreator.github.io Song... 阅读全文

    优惠 基准测试“MOCHI”:评估人类观察者和计算机视觉模型在三维形状推断任务上的一致性

  • 基准测试“MOCHI”:评估人类观察者和计算机视觉模型在三维形状推断任务上的一致性
    AI
  • 加州大学伯克利分校和麻省理工学院的研究人员推出基准测试“MOCHI”,旨在评估人类观察者和计算机视觉模型在三维形状推断任务上的一致性。这个任务要求参与者从三个不同视角的图像中识别出哪个图像显示的对象是不同的。研究者们通过这个任务来比较人类的表现和多种计算机视觉模型的表现。 GitHub:https://github.c... 阅读全文

    优惠 三维物体检测模型UniDet3D:能够从点云数据中识别和定位室内环境中的物体

  • 三维物体检测模型UniDet3D:能够从点云数据中识别和定位室内环境中的物体
    AI
  • 人工智能研究院推出三维物体检测模型UniDet3D,它能够从点云数据中识别和定位室内环境中的物体。这个模型特别适用于机器人和增强现实(AR)领域,因为它可以提供对三维空间中物体的精确理解。总的来说,UniDet3D通过在多个数据集上进行训练,提高了模型对不同室内环境的适应能力,使其能够在各种场景下准确地检测和定位三维物... 阅读全文

    优惠 机器人框架Robot Utility Models(RUMs):训练能够在新环境中零样本部署的机器人策略

  • 机器人框架Robot Utility Models(RUMs):训练能够在新环境中零样本部署的机器人策略
    AI
  • 纽约大学、Hello Robot、Meta的研究人员推出新的机器人框架Robot Utility Models(RUMs),它旨在训练能够在新环境中零样本部署的机器人策略。这些策略能够在没有进一步微调的情况下,直接泛化到新的环境和对象上。总的来说,RUMs通过结合多模态学习和自我批评机制,提高了机器人在新环境中的自主性... 阅读全文

    优惠 新型视觉-语言模型POINTS:通过一些高效且经济的策略来提升模型的性能

  • 新型视觉-语言模型POINTS:通过一些高效且经济的策略来提升模型的性能
    AI
  • 腾讯公司微信 AI 模式识别中心、上海交通大学和南京大学的研究人员推出新型视觉-语言模型POINTS,旨在通过一些高效且经济的策略来提升模型的性能。这个模型专注于处理图像和文本信息,使其在理解和生成与视觉内容相关的语言描述方面更加准确和高效。 论文:https://arxiv.org/abs/2409.04828 例如... 阅读全文

    优惠 基准测试CKnowEdit:通过知识编辑技术纠正和改进大语言模型中的中文知识

  • 基准测试CKnowEdit:通过知识编辑技术纠正和改进大语言模型中的中文知识
    AI
  • 浙江大学和加州大学圣地亚哥分校的研究人员推出基准测试CKnowEdit,旨在通过知识编辑技术纠正和改进大语言模型(LLMs)中的中文知识。这项工作特别关注中文语言和文化领域,因为这些领域在现有的LLMs中常常被误解或处理不当。 数据集:https://huggingface.co/datasets/zjunlp/CKn... 阅读全文

    优惠 Paper Copilot:为研究人员设计的个性化学术助手,基于大语言模型

  • Paper Copilot:为研究人员设计的个性化学术助手,基于大语言模型
    AI
  • 伊利诺伊大学香槟分校、卡内基梅隆大学、卡尔顿学院的研究人员推出一个名为“Paper Copilot”的系统,它是一个为研究人员设计的个性化学术助手,基于大语言模型(LLM)。这个系统的核心目标是帮助科研人员更有效地在海量文献中找到所需信息,并且提供实时更新的研究成果。 Demo:https://huggingface.... 阅读全文

    优惠 新型多模态大语言模型的指令数据演化框架MMEvol

  • 新型多模态大语言模型的指令数据演化框架MMEvol
    AI
  • SIAT、UCAS、阿里巴巴、同济大学和USYD的研究人员推出新型多模态大语言模型(MLLM)的指令数据演化框架MMEvol,这个框架的目的是提高MLLM在处理视觉和语言任务时的能力,通过自动生成更复杂和多样化的图像-文本指令数据。总的来说,MMEvol是一个让电脑通过学习和练习变得更擅长处理图像和文字的工具,它通过自... 阅读全文

    优惠 GST:能够从单张图片中精确重建出三维人体模型

  • GST:能够从单张图片中精确重建出三维人体模型
    AI
  • 牛津大学视觉几何小组推出新技术GST(Gaussian Splatting Transformers),它能够从单张图片中精确重建出三维人体模型。总的来说,GST 通过结合先进的视觉 Transformer 技术和高斯表示方法,提供了一种高效且精确的方式来从二维图像中重建三维人体模型,这项技术对于虚拟现实、增强现实、创... 阅读全文

    优惠 XCoder:提高代码生成模型的性能,特别是通过优化代码指令调优数据的质量

  • XCoder:提高代码生成模型的性能,特别是通过优化代码指令调优数据的质量
    AI
  • 北京邮电大学和美团的研究人员发布论文,论文的主题是关于如何提高代码生成模型的性能,特别是通过优化代码指令调优数据的质量。代码生成模型,也就是那些能够根据人类指令生成代码的人工智能模型,近年来在软件开发领域变得越来越重要。这些模型可以帮助程序员更快地编写代码,减少错误,甚至学习编写他们以前不熟悉的代码。总的来说,这篇论文... 阅读全文