AI

优惠 生成心理测量(GPV):更准确地理解和评估人类和AI的价值观

  • 生成心理测量(GPV):更准确地理解和评估人类和AI的价值观
    AI
  • 北京大学智能科学与技术学院通用人工智能国家重点实验室、北京大学软件与微电子学院、北京大学社会学系、北京大学心理与认知科学学院和北大武汉人工智能研究院的研究人员推出GPV,利用大语言模型(LLM)来测量人类和人工智能(AI)的价值观。简单来说,研究者们希望通过一种新方法,称为“生成心理测量”(Generative Psy... 阅读全文

    优惠 SSR-Speech:专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计

  • SSR-Speech:专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计
    AI
  • 约翰霍普金斯大学、腾讯人工智能实验室和南洋理工大学的研究人员推出新型神经编解码自回归模型SSR-Speech,它专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计,以实现稳定、安全和强大的性能。简单来说,SSR-Speech 能够根据文本指令修改或合成语音,而不需要在训练期间听到特定的说话... 阅读全文

    优惠 新型声音提取技术SoloAudio:用于从复杂的音频场景中提取特定的声音

  • 新型声音提取技术SoloAudio:用于从复杂的音频场景中提取特定的声音
    AI
  • 约翰霍普金斯大学电气与计算机工程系的研究人员推出新型声音提取技术SoloAudio。SoloAudio 是一个基于扩散模型的声音生成模型,专门设计用于从复杂的音频场景中提取特定的声音。这项技术可以帮助我们在有多种声音混杂的环境中,像人耳一样专注于并分离出我们感兴趣的那一种声音。 项目主页:https://wanghel... 阅读全文

    优惠 Vista3D框架:从单一的2D图像中快速生成3D模型

  • Vista3D框架:从单一的2D图像中快速生成3D模型
    AI
  • 新加坡国立大学和华为的研究人员推出Vista3D框架,它的目标是从单一的2D图像中快速生成3D模型。这个技术可以帮助我们从一张照片中想象出物体的全貌,即使照片中只展示了物体的一部分。Vista3D通过两个阶段来实现这一目标:粗略阶段和精细阶段。 GitHub:https://github.com/florinshen/... 阅读全文

    优惠 DAC:基于扩散模型的音频字幕生成,利用扩散模型来为音频内容生成描述性文字的技术

  • DAC:基于扩散模型的音频字幕生成,利用扩散模型来为音频内容生成描述性文字的技术
    AI
  • 腾讯AI实验室、北京理工大学、中国科学院自动化研究所的研究人员推出一种名为“基于扩散模型的音频字幕生成”(Diffusion-based Audio Captioning,简称DAC)的技术。这是一种利用扩散模型来为音频内容生成描述性文字的技术,旨在提高音频理解及其在多媒体应用中的性能。扩散模型是一种生成模型,它通过在... 阅读全文

    优惠 喜马拉雅推出高质量零样本(zero-shot)语音生成模型“Takin AudioLLM”系列

  • 喜马拉雅推出高质量零样本(zero-shot)语音生成模型“Takin AudioLLM”系列
    AI
  • 喜马拉雅Everest团队推出高质量零样本(zero-shot)语音生成模型系列“Takin AudioLLM”。这个系列包括Takin TTS(Text-to-Speech,文本到语音)、Takin VC(Voice Conversion,声音转换)和Takin Morphing(声音变形)三个模型,它们专门设计用于... 阅读全文

    优惠 微软推出新型机器学习模型GRIN:对现有的“专家混合”(MoE)模型的一种改进

  • 微软推出新型机器学习模型GRIN:对现有的“专家混合”(MoE)模型的一种改进
    AI
  • 微软推出新型机器学习模型GRIN,它是对现有的“专家混合”(Mixture-of-Experts,简称MoE)模型的一种改进。MoE模型是一种特殊的深度学习模型,它通过将任务分配给不同的“专家”子模块来处理,每个专家只处理它擅长的特定类型的输入。这种方法可以让模型在保持高效的同时,处理更大规模的数据。 GitHub:h... 阅读全文

    优惠 “链式思考(CoT)”技术在大语言模型中的应用效果

  • “链式思考(CoT)”技术在大语言模型中的应用效果
    AI
  • 德克萨斯大学奥斯汀分校、约翰霍普金斯大学和普林斯顿大学的研究人员发布论文,探讨了一个名为“链式思考(Chain-of-Thought,简称CoT)”的技术在大型语言模型(Large Language Models,简称LLMs)中的应用效果。链式思考是一种通过提示(prompting)来激发语言模型进行推理的方法。简单... 阅读全文

    优惠 个性化大语言模型PPlug:让语言模型能够根据每个用户的独特偏好和习惯来生成定制化的文本输出

  • 个性化大语言模型PPlug:让语言模型能够根据每个用户的独特偏好和习惯来生成定制化的文本输出
    AI
  • 中国人民大学高岭人工智能学院和百度的研究人员推出一种新型的个性化大语言模型(LLM),名为PPlug(Persona-Plug)。这个模型的目的是让语言模型能够根据每个用户的独特偏好和习惯来生成定制化的文本输出。总的来说,PPlug通过将用户的历史行为和偏好编码成一个嵌入向量,并在生成文本时使用这个向量,使得语言模型能... 阅读全文

    优惠 阿里推出新型多模态大语言模型Ovis

  • 阿里推出新型多模态大语言模型Ovis
    AI
  • 阿里巴巴集团人工智能业务、南京大学人工智能学院、南京大学计算机软件新技术国家重点实验室的研究人员推出新型多模态大语言模型Ovis。多模态意味着这个模型能够同时处理和理解文本和视觉信息,比如图片。你可以把它想象成一个能够“看图说话”的智能系统。 GitHub:https://github.com/AIDC-AI/Ovis... 阅读全文

    优惠 新型检索模型Promptriever:能够像语言模型一样响应指令,为用户提供更自然的搜索体验

  • 新型检索模型Promptriever:能够像语言模型一样响应指令,为用户提供更自然的搜索体验
    AI
  • 约翰·霍普金斯大学和Samaya AI的研究人员推出新型检索模型Promptriever,它能够像语言模型一样响应指令,为用户提供更自然的搜索体验。简单来说,就像你和一位图书管理员对话,告诉他你想找什么书,他会根据你的描述帮你找到正确的书籍。总的来说,Promptriever通过理解和响应用户的自然语言指令,使得信息检... 阅读全文

    优惠 Jumping CoD:让四足机器人在不连续的地形(比如楼梯和跳石头)上进行敏捷、连续、适应地形的跳跃

  • Jumping CoD:让四足机器人在不连续的地形(比如楼梯和跳石头)上进行敏捷、连续、适应地形的跳跃
    AI
  • 盛顿大学、谷歌 Deepmind和卡内基梅隆大学的研究人员推出新技术,它能让四足机器人在不连续的地形(比如楼梯和跳石头)上进行敏捷、连续、适应地形的跳跃。这就像是教会机器人在复杂的地面上像动物一样跳跃,而不仅仅是简单地行走。 项目主页:https://yxyang.github.io/jumping_cod GitHu... 阅读全文