AI

优惠 为了符号音乐处理而设计的大规模公共领域MusicXML数据集PDMX

  • 为了符号音乐处理而设计的大规模公共领域MusicXML数据集PDMX
    AI
  • 加州大学圣地亚哥分校推出大规模公共领域MusicXML数据集PDMX,它是为了符号音乐处理而设计的。符号音乐处理是指将音乐以乐谱形式进行分析和生成,这与音频领域的音乐生成不同,它更侧重于音乐的结构和符号表示。 项目主页:https://pnlong.github.io/PDMX.demo GitHub:https://... 阅读全文

    优惠 SplatFields:新型的三维(3D)和四维(4D)重建技术

  • SplatFields:新型的三维(3D)和四维(4D)重建技术
    AI
  • 苏黎世联邦理工学院、Meta和 巴尔格里斯特大学医院的研究人员推出一种新型的三维(3D)和四维(4D)重建技术,名为SplatFields。这项技术的目标是从多个视角的图像中高效地重建出静态场景和动态事件的三维模型,并且能够以神经网络的方式对这些模型进行渲染,使其看起来更加真实。 项目主页:https://markom... 阅读全文

    优惠 新型3D生成模型Phidias:通过文本、图像以及3D条件来创造3D内容

  • 新型3D生成模型Phidias:通过文本、图像以及3D条件来创造3D内容
    AI
  • 香港城市大学、上海人工智能实验室、香港中文大学和南洋理工大学S-Lab的研究人员推出新型3D生成模型Phidias,它能够通过文本、图像以及3D条件来创造3D内容。Phidias的核心特点是利用一个额外的3D参考模型来指导生成过程,从而提高生成质量、泛化能力和可控性。 项目主页:https://rag-3d.githu... 阅读全文

    优惠 英伟达推出多模态大语言模型NVLM 1.0

  • 英伟达推出多模态大语言模型NVLM 1.0
    AI
  • 英伟达推出多模态大语言模型NVLM 1.0,它在视觉-语言任务上取得了突破性成果,与业界领先的专有模型(比如GPT-4o)和开源模型(比如Llama 3-V 405B和InternVL 2)相媲美。NVLM 1.0不仅在多模态任务上表现出色,还在文本任务上超越了其基础的大语言模型。 项目主页:https://nvlm-... 阅读全文

    优惠 Breaking-reCAPTCHAv2:如何破解 Google 的 reCAPTCHA v2 系统

  • Breaking-reCAPTCHAv2:如何破解 Google 的 reCAPTCHA v2 系统
    AI
  • 苏黎世联邦理工学院的研究人员发布论文,论文的主题是关于如何破解 Google 的 reCAPTCHA v2 系统。reCAPTCHA 是一种广泛使用的网络安全工具,它通过一系列挑战(也就是我们常说的验证码)来区分用户是真人还是自动程序(比如机器人)。Google 的 reCAPTCHA v2 是其中一种,它会用一些图像... 阅读全文

    优惠 AudioBERT:通过基于检索的方法增强 BERT 的听觉知识的新方法

  • AudioBERT:通过基于检索的方法增强 BERT 的听觉知识的新方法
    AI
  • AudioBERT是一种通过基于检索的方法增强 BERT 的听觉知识的新方法,它专门设计来增强传统语言模型在听觉知识方面的不足。传统上,语言模型主要在文本数据上进行预训练,这可能导致它们在处理与声音相关的任务时缺乏一些基本的听觉常识。例如,你正在开发一个教育应用程序,旨在帮助儿童学习动物和它们的声音。使用AudioBE... 阅读全文

    优惠 新型大语言模型推理框架DoT:通过构建一个有向无环图(DAG)来模拟迭代推理过程

  • 新型大语言模型推理框架DoT:通过构建一个有向无环图(DAG)来模拟迭代推理过程
    AI
  • 清华大学创新研究院、上海人工智能实验室和上海启智研究院的研究人员推出DoT框架,它是一种新型大语言模型推理框架。DoT通过构建一个有向无环图(DAG)来模拟迭代推理过程,这种结构比传统的线性或树形结构更能捕捉人类推理的复杂性。 GitHub:https://github.com/diagram-of-thought/d... 阅读全文

    优惠 Ferret算法:用于大语言模型的联邦学习(FL)方法

  • Ferret算法:用于大语言模型的联邦学习(FL)方法
    AI
  • 广东人工智能与数字经济实验室、新加坡国立大学计算机科学系、新加坡国立大学数据科学研究所和加拿大卡尔顿大学的研究人员推出一个名为Ferret的算法,它是一种用于大语言模型(LLMs)的联邦学习(FL)方法。联邦学习是一种允许在多个分散的数据源上训练模型的技术,同时保持数据隐私和减少通信开销。 GitHub:https:/... 阅读全文

    优惠 漫画理解(Comics Understanding):利用人工智能(AI)来分析和理解漫画内容

  • 漫画理解(Comics Understanding):利用人工智能(AI)来分析和理解漫画内容
    AI
  • 西班牙巴塞罗那自治大学和意大利佛罗伦萨大学的研究人员发布论文,论文的主题是关于漫画理解(Comics Understanding),它探讨了如何利用人工智能(AI)来分析和理解漫画内容。漫画不仅包含图像,还有文字,它们共同讲述故事,这使得漫画理解成为一个跨视觉和语言的复杂任务。 GitHub:https://githu... 阅读全文

    优惠 零样本音频分类ReCLAP:理解自然语言描述来识别不同类型的声音

  • 零样本音频分类ReCLAP:理解自然语言描述来识别不同类型的声音
    AI
  • 马里兰大学帕克分校和Adob​​e Research的研究人员推出一种用于零样本音频分类(Zero-Shot Audio Classification, ZSAC)的方法ReCLAP。零样本音频分类是一种技术,可以让计算机在没有直接训练数据的情况下,通过理解自然语言描述来识别不同类型的声音。例如,你正在制作一个关于城市... 阅读全文

    优惠 音频恢复模型Apollo:专门设计用于改善压缩音频的质量

  • 音频恢复模型Apollo:专门设计用于改善压缩音频的质量
    AI
  • 清华大学和腾讯AI实验室的研究人员推出音频恢复模型Apollo,它专门设计用于改善压缩音频的质量。例如,你正在听一首因为文件压缩而音质受损的歌曲,Apollo的目标就是让这首歌听起来尽可能地接近原始无损音质。 项目主页:https://cslikai.cn/Apollo GitHub:https://github.co... 阅读全文

    优惠 Adob​​e 研究中心推出使用多照明合成的扩散方法对辐射场进行重新照明的技术

  • Adob​​e 研究中心推出使用多照明合成的扩散方法对辐射场进行重新照明的技术
    AI
  • 蔚蓝海岸大学、拉瓦尔大学和Adob​​e 研究中心的研究人员推出一种名为“使用多照明合成的扩散方法对辐射场进行重新照明(A Diffusion Approach to Radiance Field Relighting using Multi-Illumination Synthesis)”的技术。这是一种先进的计算机... 阅读全文