AI

优惠 Speech Slytherin:新型序列模型Mamba应用于语音处理的三个关键任务:语音分离、自动语音识别(ASR)和文本到语音合成(TTS)

  • Speech Slytherin:新型序列模型Mamba应用于语音处理的三个关键任务:语音分离、自动语音识别(ASR)和文本到语音合成(TTS)
    AI
  • 哥伦比亚大学电气工程系的研究人员推出Speech Slytherin,探讨了一种新型的序列模型Mamba,并将其应用于语音处理的三个关键任务:语音分离、自动语音识别(ASR)和文本到语音合成(TTS)。Mamba是一种新型的序列模型,它与传统的变换器(transformer)模型相比,可能在某些方面有更好的性能和更高的... 阅读全文

    优惠 StyleSplat:将艺术风格应用到3D场景中的方法,使得3D模型能够呈现出不同的艺术效果

  • StyleSplat:将艺术风格应用到3D场景中的方法,使得3D模型能够呈现出不同的艺术效果
    AI
  • 卡内基·梅隆大学的研究人员推出StyleSplat,这是一种将艺术风格应用到3D场景中的方法,使得3D模型能够呈现出不同的艺术效果。它能够将你选择的艺术风格应用到3D场景中的特定对象上,而不影响场景中的其他部分。例如,你正在制作一个关于森林的场景,你想让森林中的树木看起来像是用油画风格绘制的,而地面则保持现实主义风格。... 阅读全文

    优惠 多模态问答数据集SPIQA:帮助读者更快速地在科学论文中找到他们需要的答案

  • 多模态问答数据集SPIQA:帮助读者更快速地在科学论文中找到他们需要的答案
    AI
  • 谷歌推出针对科学论文的多模态问答数据集SPIQA,这个项目旨在帮助读者更快速地在科学论文中找到他们需要的答案,特别是那些包含复杂图表和表格的论文。例如,你是一名研究人员,正在阅读一篇关于机器学习的最新科学论文。论文中充满了复杂的图表、数据表格和专业术语。如果你想了解某个特定图表所展示的实验结果,或者想知道某个数据表格中... 阅读全文

    优惠 通过进化和语言模型生成游戏GAVEL:展示了人工智能在自动游戏设计领域的潜力

  • 通过进化和语言模型生成游戏GAVEL:展示了人工智能在自动游戏设计领域的潜力
    AI
  • 纽约大学坦顿分校、马斯特里赫特大学、弗林德斯大学和加州大学鲁汶分校的研究人员推出GAVEL,通过进化和语言模型生成游戏。这是一个非常有趣的研究领域,因为它涉及到自动创建新颖且有趣的游戏,这对于人工智能来说是一个复杂的挑战。GAVEL是一个创新的系统,它展示了人工智能在自动游戏设计领域的潜力。例如,你有一个能够自己创造新... 阅读全文

    优惠 模型手术(Model Surgery):通过直接编辑大语言模型的一小部分参数来调节其行为的方法

  • 模型手术(Model Surgery):通过直接编辑大语言模型的一小部分参数来调节其行为的方法
    AI
  • 清华大学自动化系和卡内基梅隆大学的研究人员推出“模型手术”(Model Surgery),这是一种通过直接编辑大语言模型(LLM)的一小部分参数来调节其行为的方法。这种方法特别适用于希望模型展现出某些理想行为特征,比如无毒性(non-toxicity)和抵抗越狱(jailbreak)尝试的能力。 GitHub:http... 阅读全文

    优惠 用于大语言模型更新的策略MUSCLE:减少大型语言模型更新带来的负面影响,提高用户满意度

  • 用于大语言模型更新的策略MUSCLE:减少大型语言模型更新带来的负面影响,提高用户满意度
    AI
  • MUSCLE是一种用于大语言模型(LLM)更新的策略。这些模型经常需要更新,以提高它们在处理语言任务时的表现。但问题是,每次更新后,模型的行为可能会发生变化,这可能会让用户感到困惑,因为他们已经习惯了旧版本的模型。比如,一个聊天机器人在更新后,可能会给出与之前不同的回答,这可能会让用户感到不适应。总的来说,MUSCLE... 阅读全文

    优惠 H2O.ai公司推出小型语言模型H2O-Danube3,可以在手机上运行

  • H2O.ai公司推出小型语言模型H2O-Danube3,可以在手机上运行
    AI
  • H2O-Danube3是由H2O.ai公司推出的一系列小型语言模型。这些模型包括H2O-Danube3-4B和H2O-Danube3-500M,分别在6万亿(T)和4万亿个词元上进行了训练。这些模型的设计理念是能够在现代智能手机等移动设备上高效运行,实现本地推理和快速处理能力。例如,你有一个智能手机应用,需要一个能够理... 阅读全文

    优惠 DataDream:通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集

  • DataDream:通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集
    AI
  • DataDream是一个框架,它通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集。这在图像分类任务中尤其有用,因为有时候我们手头只有很少的样本,但需要训练一个能够识别多种类别的模型。例如,你是一位艺术家,但只有几幅画作为参考。你希望能够创作出更多风格相似、细节丰富的画作... 阅读全文

    优惠 多模态智能代理基准测试Spider2-V:专注于自动化数据科学和工程工作流程

  • 多模态智能代理基准测试Spider2-V:专注于自动化数据科学和工程工作流程
    AI
  • 香港大学、上海交通大学、Google Cloud AI 研究中心、Google Deepmind、Salesforce Research、 耶鲁大学、Sea AI 实验室和滑铁卢大学的研究人员推出多模态智能代理基准测试Spider2-V,它专注于自动化数据科学和工程工作流程。随着视觉-语言模型(VLMs)在多模态理解和... 阅读全文

    优惠 视频占用模型(VOCs):专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要

  • 视频占用模型(VOCs):专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要
    AI
  • 阿尔伯塔大学、德克萨斯大学奥斯汀分校微软纽约研究院和加州大学伯克利分校的研究人员推出一种新型的视频预测模型,称为视频占用模型(Video Occupancy Models,简称VOCs)。这些模型专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要。实验分析,包括使用不同的表示空间(如... 阅读全文

    优惠 SHERL:为资源受限的迁移学习场景提供一种高效且准确的解决方案

  • SHERL:为资源受限的迁移学习场景提供一种高效且准确的解决方案
    AI
  • 大连理工大学、鲁汶大学、腾讯微信和香港科技大学的研究人员推出SHERL,它旨在为资源受限的迁移学习场景提供一种高效且准确的解决方案。SHERL的核心思想是将大型预训练模型适应到下游任务中,同时显著减少可训练参数并解决微调过程中的内存挑战。通过广泛的实验验证了SHERL在多个任务和不同架构上的有效性,展示了其在资源受限环... 阅读全文

    优惠 新模型MaskVAT:根据无声视频生成与之匹配的音频

  • 新模型MaskVAT:根据无声视频生成与之匹配的音频
    AI
  • 杜比实验室和加泰罗尼亚理工大学的研究人员推出新模型MaskVAT(Masked Generative Video-to-Audio Transformers),它能够根据无声视频生成与之匹配的音频。简单来说,就是让计算机“看”一段没有声音的视频,然后“想象”出视频中应有的声音,比如人的对话声、环境声等。在一些具体的实验... 阅读全文