人工智能

优惠 CLAIRA:利用大语言模型来评估音频字幕质量的方法

  • CLAIRA:利用大语言模型来评估音频字幕质量的方法
    AI
  • 加州大学伯克利分校的研究人员推出了一个名为CLAIRA的系统,它是一个利用大语言模型来评估音频字幕质量的方法。例如,你有一段下雨和车辆驶过的音频,一个良好的音频字幕可能是“车辆在雨中驶过,水花四溅”。CLAIRA会评估这个字幕与参考字幕(如“雨中车辆驶过,伴有水花声”)的语义相似度,并给出一个高分和解释,说明为什么这个... 阅读全文

    优惠 Kyutai推出实时语音到语音模型Moshi:通过模拟人类的对话方式,使得机器与人类的交流更加自然和流畅

  • Kyutai推出实时语音到语音模型Moshi:通过模拟人类的对话方式,使得机器与人类的交流更加自然和流畅
    AI
  • Kyutai推出实时语音到语音模型Moshi,它可以连续地倾听和说话,无需明确地建模发言人的转换或中断。例如,你有一个智能助手,它能够像真人一样与你进行流畅的对话,不仅理解你的话,还能用自然的声音回应你,那么Moshi就是实现这一目标的模型。 GitHub:https://github.com/kyutai-labs/... 阅读全文

    优惠 FlexiTex:用于生成高质量3D纹理的方法

  • FlexiTex:用于生成高质量3D纹理的方法
    AI
  • 天津大学和腾讯混元团队推出了一个名为FlexiTex的系统,它是一个用于生成高质量3D纹理的方法。FlexiTex通过视觉引导来增强纹理生成,能够处理各种物体的纹理,生成高保真度的纹理效果。例如,你是一名游戏设计师,需要为游戏中的虚拟角色或场景生成逼真的纹理。使用FlexiTex,你可以通过提供简单的文本描述或直接上传... 阅读全文

    优惠 3DGS-LM:用于加速3D高斯散射的重建过程

  • 3DGS-LM:用于加速3D高斯散射的重建过程
    AI
  • 慕尼黑工业大学和Meta的研究人员推出3DGS-LM,它用于加速3D高斯散射(3D Gaussian Splatting,简称3DGS)的重建过程。3DGS是一种用于3D场景重建和新视角合成的技术,它通过将场景表示为一组3D高斯函数来实现。这些高斯函数描述了场景中各个点的颜色和位置信息,从而能够从新的视角渲染出高质量的... 阅读全文

    优惠 MURI:为低资源语言生成高质量的指令调整(instruction tuning)数据集

  • MURI:为低资源语言生成高质量的指令调整(instruction tuning)数据集
    AI
  • 慕尼黑大学 CIS 、慕尼黑机器学习中心、Cohere for AI 和剑桥大学语言技术实验室的研究人员推出一个名为MURI(Multilingual Reverse Instructions)的方法,它用于为低资源语言生成高质量的指令调整(instruction tuning)数据集。指令调整是一种优化大型语言模型(... 阅读全文

    优惠 HyperCloning:用于加速大语言模型预训练的新策略

  • HyperCloning:用于加速大语言模型预训练的新策略
    AI
  • 苹果推出了一个名为HyperCloning的方法,这是一种用于加速大语言模型预训练的新策略。它通过利用小型预训练模型的参数来初始化一个更大的模型,从而提高了训练效率和最终的准确性。因此,在训练开始之前,较大模型就已经继承了较小模型的预测能力和准确性。我们展示了训练这样一个初始化后的模型,在预训练大型语言模型所需的 GP... 阅读全文

    优惠 MMSEARCH:旨在探索大型多模态模型(LMMs)作为多模态搜索引擎的潜力

  • MMSEARCH:旨在探索大型多模态模型(LMMs)作为多模态搜索引擎的潜力
    AI
  • 香港中文大学MMLab、字节跳动、香港中文大学MiuLar实验室、上海人工智能实验室、北京大学、斯坦福大学和商汤研究院的研究人员推出 MMSEARCH 项目,它旨在探索大型多模态模型(LMMs)作为多模态搜索引擎的潜力。多模态搜索引擎能够处理包含图像和文本的查询,这对于传统的仅支持文本的搜索引擎来说是一个重大进步。 项... 阅读全文

    优惠 Google DeepMind发布论文:如何训练大语言模型(LLMs)进行自我纠错

  • Google DeepMind发布论文:如何训练大语言模型(LLMs)进行自我纠错
    AI
  • Google DeepMind发布论文,论文的主题是关于如何训练大语言模型(LLMs)进行自我纠错。自我纠错是指模型在生成回答后,能够检测并修正自己的错误,以提供更准确的信息。这项能力对于提高模型在复杂任务中的性能至关重要,尤其是在需要精确推理的领域,如数学问题解答。例如,你在使用一个智能助手来帮助解决数学问题。你输入... 阅读全文

    优惠 大规模多模态预训练数据集 InfiMM-WebMath-40B:提升大语言模型在数学推理方面的能力

  • 大规模多模态预训练数据集 InfiMM-WebMath-40B:提升大语言模型在数学推理方面的能力
    AI
  • 字节跳动和中国科学院的研究人员推出大规模多模态预训练数据集 InfiMM-WebMath-40B,它旨在提升大语言模型(LLMs)在数学推理方面的能力。这个数据集特别为多模态学习环境设计,包含了图像和文本的结合,以帮助模型更好地理解和处理数学概念。 数据:https://huggingface.co/datasets/... 阅读全文

    优惠 生成心理测量(GPV):更准确地理解和评估人类和AI的价值观

  • 生成心理测量(GPV):更准确地理解和评估人类和AI的价值观
    AI
  • 北京大学智能科学与技术学院通用人工智能国家重点实验室、北京大学软件与微电子学院、北京大学社会学系、北京大学心理与认知科学学院和北大武汉人工智能研究院的研究人员推出GPV,利用大语言模型(LLM)来测量人类和人工智能(AI)的价值观。简单来说,研究者们希望通过一种新方法,称为“生成心理测量”(Generative Psy... 阅读全文

    优惠 SSR-Speech:专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计

  • SSR-Speech:专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计
    AI
  • 约翰霍普金斯大学、腾讯人工智能实验室和南洋理工大学的研究人员推出新型神经编解码自回归模型SSR-Speech,它专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计,以实现稳定、安全和强大的性能。简单来说,SSR-Speech 能够根据文本指令修改或合成语音,而不需要在训练期间听到特定的说话... 阅读全文

    优惠 新型声音提取技术SoloAudio:用于从复杂的音频场景中提取特定的声音

  • 新型声音提取技术SoloAudio:用于从复杂的音频场景中提取特定的声音
    AI
  • 约翰霍普金斯大学电气与计算机工程系的研究人员推出新型声音提取技术SoloAudio。SoloAudio 是一个基于扩散模型的声音生成模型,专门设计用于从复杂的音频场景中提取特定的声音。这项技术可以帮助我们在有多种声音混杂的环境中,像人耳一样专注于并分离出我们感兴趣的那一种声音。 项目主页:https://wanghel... 阅读全文