人工智能

优惠 Vista3D框架:从单一的2D图像中快速生成3D模型

  • Vista3D框架:从单一的2D图像中快速生成3D模型
    AI
  • 新加坡国立大学和华为的研究人员推出Vista3D框架,它的目标是从单一的2D图像中快速生成3D模型。这个技术可以帮助我们从一张照片中想象出物体的全貌,即使照片中只展示了物体的一部分。Vista3D通过两个阶段来实现这一目标:粗略阶段和精细阶段。 GitHub:https://github.com/florinshen/... 阅读全文

    优惠 DAC:基于扩散模型的音频字幕生成,利用扩散模型来为音频内容生成描述性文字的技术

  • DAC:基于扩散模型的音频字幕生成,利用扩散模型来为音频内容生成描述性文字的技术
    AI
  • 腾讯AI实验室、北京理工大学、中国科学院自动化研究所的研究人员推出一种名为“基于扩散模型的音频字幕生成”(Diffusion-based Audio Captioning,简称DAC)的技术。这是一种利用扩散模型来为音频内容生成描述性文字的技术,旨在提高音频理解及其在多媒体应用中的性能。扩散模型是一种生成模型,它通过在... 阅读全文

    优惠 喜马拉雅推出高质量零样本(zero-shot)语音生成模型“Takin AudioLLM”系列

  • 喜马拉雅推出高质量零样本(zero-shot)语音生成模型“Takin AudioLLM”系列
    AI
  • 喜马拉雅Everest团队推出高质量零样本(zero-shot)语音生成模型系列“Takin AudioLLM”。这个系列包括Takin TTS(Text-to-Speech,文本到语音)、Takin VC(Voice Conversion,声音转换)和Takin Morphing(声音变形)三个模型,它们专门设计用于... 阅读全文

    优惠 微软推出新型机器学习模型GRIN:对现有的“专家混合”(MoE)模型的一种改进

  • 微软推出新型机器学习模型GRIN:对现有的“专家混合”(MoE)模型的一种改进
    AI
  • 微软推出新型机器学习模型GRIN,它是对现有的“专家混合”(Mixture-of-Experts,简称MoE)模型的一种改进。MoE模型是一种特殊的深度学习模型,它通过将任务分配给不同的“专家”子模块来处理,每个专家只处理它擅长的特定类型的输入。这种方法可以让模型在保持高效的同时,处理更大规模的数据。 GitHub:h... 阅读全文

    优惠 “链式思考(CoT)”技术在大语言模型中的应用效果

  • “链式思考(CoT)”技术在大语言模型中的应用效果
    AI
  • 德克萨斯大学奥斯汀分校、约翰霍普金斯大学和普林斯顿大学的研究人员发布论文,探讨了一个名为“链式思考(Chain-of-Thought,简称CoT)”的技术在大型语言模型(Large Language Models,简称LLMs)中的应用效果。链式思考是一种通过提示(prompting)来激发语言模型进行推理的方法。简单... 阅读全文

    优惠 个性化大语言模型PPlug:让语言模型能够根据每个用户的独特偏好和习惯来生成定制化的文本输出

  • 个性化大语言模型PPlug:让语言模型能够根据每个用户的独特偏好和习惯来生成定制化的文本输出
    AI
  • 中国人民大学高岭人工智能学院和百度的研究人员推出一种新型的个性化大语言模型(LLM),名为PPlug(Persona-Plug)。这个模型的目的是让语言模型能够根据每个用户的独特偏好和习惯来生成定制化的文本输出。总的来说,PPlug通过将用户的历史行为和偏好编码成一个嵌入向量,并在生成文本时使用这个向量,使得语言模型能... 阅读全文

    优惠 阿里推出新型多模态大语言模型Ovis

  • 阿里推出新型多模态大语言模型Ovis
    AI
  • 阿里巴巴集团人工智能业务、南京大学人工智能学院、南京大学计算机软件新技术国家重点实验室的研究人员推出新型多模态大语言模型Ovis。多模态意味着这个模型能够同时处理和理解文本和视觉信息,比如图片。你可以把它想象成一个能够“看图说话”的智能系统。 GitHub:https://github.com/AIDC-AI/Ovis... 阅读全文

    优惠 新型检索模型Promptriever:能够像语言模型一样响应指令,为用户提供更自然的搜索体验

  • 新型检索模型Promptriever:能够像语言模型一样响应指令,为用户提供更自然的搜索体验
    AI
  • 约翰·霍普金斯大学和Samaya AI的研究人员推出新型检索模型Promptriever,它能够像语言模型一样响应指令,为用户提供更自然的搜索体验。简单来说,就像你和一位图书管理员对话,告诉他你想找什么书,他会根据你的描述帮你找到正确的书籍。总的来说,Promptriever通过理解和响应用户的自然语言指令,使得信息检... 阅读全文

    优惠 Jumping CoD:让四足机器人在不连续的地形(比如楼梯和跳石头)上进行敏捷、连续、适应地形的跳跃

  • Jumping CoD:让四足机器人在不连续的地形(比如楼梯和跳石头)上进行敏捷、连续、适应地形的跳跃
    AI
  • 盛顿大学、谷歌 Deepmind和卡内基梅隆大学的研究人员推出新技术,它能让四足机器人在不连续的地形(比如楼梯和跳石头)上进行敏捷、连续、适应地形的跳跃。这就像是教会机器人在复杂的地面上像动物一样跳跃,而不仅仅是简单地行走。 项目主页:https://yxyang.github.io/jumping_cod GitHu... 阅读全文

    优惠 为了符号音乐处理而设计的大规模公共领域MusicXML数据集PDMX

  • 为了符号音乐处理而设计的大规模公共领域MusicXML数据集PDMX
    AI
  • 加州大学圣地亚哥分校推出大规模公共领域MusicXML数据集PDMX,它是为了符号音乐处理而设计的。符号音乐处理是指将音乐以乐谱形式进行分析和生成,这与音频领域的音乐生成不同,它更侧重于音乐的结构和符号表示。 项目主页:https://pnlong.github.io/PDMX.demo GitHub:https://... 阅读全文

    优惠 SplatFields:新型的三维(3D)和四维(4D)重建技术

  • SplatFields:新型的三维(3D)和四维(4D)重建技术
    AI
  • 苏黎世联邦理工学院、Meta和 巴尔格里斯特大学医院的研究人员推出一种新型的三维(3D)和四维(4D)重建技术,名为SplatFields。这项技术的目标是从多个视角的图像中高效地重建出静态场景和动态事件的三维模型,并且能够以神经网络的方式对这些模型进行渲染,使其看起来更加真实。 项目主页:https://markom... 阅读全文

    优惠 新型3D生成模型Phidias:通过文本、图像以及3D条件来创造3D内容

  • 新型3D生成模型Phidias:通过文本、图像以及3D条件来创造3D内容
    AI
  • 香港城市大学、上海人工智能实验室、香港中文大学和南洋理工大学S-Lab的研究人员推出新型3D生成模型Phidias,它能够通过文本、图像以及3D条件来创造3D内容。Phidias的核心特点是利用一个额外的3D参考模型来指导生成过程,从而提高生成质量、泛化能力和可控性。 项目主页:https://rag-3d.githu... 阅读全文