AI

优惠 先进语音合成模型VOICECRAFT:在不需要任何额外文本的情况下,对语音进行编辑和合成

  • 先进语音合成模型VOICECRAFT:在不需要任何额外文本的情况下,对语音进行编辑和合成
    AI
  • 来自德克萨斯大学奥斯汀分校和Rembrand的研究团队推出先进语音合成模型VOICECRAFT,它能够在不需要任何额外文本的情况下,对语音进行编辑和合成,这被称为零样本文本到语音(TTS)任务。想象一下,你有一段录音,想要改变里面的某些词语或者语调,而不需要重新录制整个句子,VOICECRAFT就能够做到这一点。同样,... 阅读全文

    优惠 谷歌发布视频插值生成模型VIDIM

  • 谷歌发布视频插值生成模型VIDIM
    AI
  • 谷歌发布视频插值生成模型VIDIM,它能够根据给定的起始和结束帧生成中间的短视频。想象一下,你有两张图片,一张是一个人跳起来的动作,另一张是这个人落地的动作,VIDIM能够在这两张图片之间生成一系列连贯的帧,形成一个平滑的跳跃动作视频。 主要功能和特点: 高保真视频生成: VIDIM能够生成结构连贯、动作自然流畅的高质... 阅读全文

    优惠 langchain-extract:使用大语言模型(LLMs)从文本和文件中提取信息

  • langchain-extract:使用大语言模型(LLMs)从文本和文件中提取信息
    AI
  • langchain-extract 是一个简单的网络服务器,它允许您使用大型语言模型(LLMs)从文本和文件中提取信息。该服务器基于 FastAPI、LangChain 和 Postgresql 构建。后端设计紧密遵循提取用例的文档,并提供了一个参考应用实现,帮助用户利用 LLMs 进行数据提取操作。这个仓库旨在作为构... 阅读全文

    优惠 开源的OpenAI API 非官方 Go 客户端Go OpenAI

  • 开源的OpenAI API 非官方 Go 客户端Go OpenAI
    AI
  • Go OpenAI是一个开源的OpenAI API 非官方 Go 客户端,目前支持: ChatGPT GPT-3, GPT-4 DALL·E 2 Whisper... 阅读全文

    优惠 Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐

  • Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐
    AI
  • Stability AI在今天推出Stable Audio 2.0,只需要一句提示词,即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目,还支持音频到音频转换能力,以及上传任意音乐对其进行风格转换。目前免费用户可生成10首歌曲,不过从听感来说,生成的歌曲并不如Suno的好听,Stable Audi... 阅读全文

    优惠 200多位音乐人联名呼吁:停止AI对音乐创作的滥用,保护人类创造力!

  • 200多位音乐人联名呼吁:停止AI对音乐创作的滥用,保护人类创造力!
    AI
  • 随着各种AI音乐生成器的不断涌现,尤其是Suno 3.0的惊艳问世,许多音乐人感受到了前所未有的压力。近期,国外200多位知名音乐人联名签署了一封公开信,强烈呼吁停止AI对人类创造力的侵害,并保护艺术家免受其掠夺性使用的伤害。 这封公开信的签名者横跨多个音乐流派和时代,既包括Billie Eilish、J Balvin... 阅读全文

    优惠 vLLM:快速且易于使用的库,专为大语言模型推理和提供服务

  • vLLM:快速且易于使用的库,专为大语言模型推理和提供服务
    AI
  • vLLM是一个快速且易于使用的库,专为大语言模型推理和提供服务,支持目前主流的开源大模型。 vLLM之所以快,是因为它具备以下特点: 领先的服务吞吐量 通过PagedAttention高效管理注意力键和值内存 持续批量处理传入的请求 使用CUDA/HIP图进行快速模型执行 量化:GPTQ、AWQ、SqueezeLLM、... 阅读全文

    优惠 谷歌推出新模型,用于解决视频中的密集字幕生成问题

  • 谷歌推出新模型,用于解决视频中的密集字幕生成问题
    AI
  • 谷歌发布论文介绍了一种新的模型,用于解决视频中的密集字幕生成问题,即在视频中预测字幕并将其定位在特定的时间段内。理想的字幕生成模型应该能够处理长时间的视频输入,生成丰富、详细的文本描述,并且在处理完整个视频之前就能够产生输出。然而,目前最先进的模型在处理视频时通常只查看少量的帧,并且在看完整个视频后才做出单一的完整预测... 阅读全文

    优惠 腾讯推出新型视频理解模型ST-LLM

  • 腾讯推出新型视频理解模型ST-LLM
    AI
  • 腾讯推出新型视频理解模型ST-LLM。ST-LLM的核心思想是将视频内容转化为一系列的空间-时间(spatial-temporal)标记,并将这些标记直接输入到大型语言模型(LLM)中,让模型自己学习如何理解和建模视频序列。这种方法简化了视频处理的流程,因为传统的视频理解模型通常需要复杂的结构和大量的计算资源。总的来说... 阅读全文

    优惠 新型开源多语言大语言模型AURORA-M

  • 新型开源多语言大语言模型AURORA-M
    AI
  • 这篇论文介绍了一个名为AURORA-M的新型开源多语言大型语言模型(LLM),它是为了解决现有开源预训练模型在多语言能力、持续预训练导致的灾难性遗忘问题,以及遵守人工智能安全和发展法规方面的挑战而设计的。总的来说,AURORA-M是一个强大的多语言模型,它通过持续预训练和安全性调整,提高了模型的性能和安全性,使其能够在... 阅读全文

    优惠 谷歌发布论文探讨如何高效地训练能够理解和处理视觉丰富文档

  • 谷歌发布论文探讨如何高效地训练能够理解和处理视觉丰富文档
    AI
  • 这篇论文的主题是关于如何高效地训练能够理解和处理视觉丰富文档(Visually Rich Documents,简称VRD)的语言模型。VRD是指那些结合了视觉元素(如字体大小、颜色、布局等)和语言信息来传递内容的文档,比如发票、税表、水电费账单、信息图表和保险报价单等。这些文档在商业流程中非常常见,但是它们通常以PDF... 阅读全文

    优惠 新型语音大语言模型WavLLM:提高语言模型在处理和理解语音方面的性能

  • 新型语音大语言模型WavLLM:提高语言模型在处理和理解语音方面的性能
    AI
  • 微软发布新型语音大型语言模型WavLLM,它旨在提高语言模型在处理和理解语音方面的性能。WavLLM通过结合两个编码器(Whisper和WavLM)来分别处理语音的语义内容和说话者的身份特征。该模型采用分阶段的课程学习方法,先从简单的单一任务开始训练,逐步过渡到更复杂的多任务。 例如,如果一个学生正在准备高考英语听力部... 阅读全文