人工智能

优惠 新型文本到语音(TTS)合成方法RALL-E

  • 新型文本到语音(TTS)合成方法RALL-E
    AI
  • 来自微软、 东京大学、浙江大学、中国科学技术大学、香港中文大学和香港中文大学(深圳)的研究人员推出新型文本到语音(TTS)合成方法RALL-E,它通过改进语音的音调和时长预测,以及增强模型对音素的关注,从而生成更加准确和自然的语音输出。想象一下,你有一段文字,想要让它变成流畅自然的语音,就像有人在朗读一样。RALL-E... 阅读全文

    优惠 Cohere推出大语言模型Command R+:专为企业级工作负载设计,优化了高级检索增强生成(RAG)功能

  • Cohere推出大语言模型Command R+:专为企业级工作负载设计,优化了高级检索增强生成(RAG)功能
    AI
  • Cohere推出了大型语言模型Command R+。专为企业级工作负载设计,优化了高级检索增强生成(RAG)功能,以减少错误生成,并支持10种关键语言的多语言覆盖。 以下是官方介绍全文翻译: Command R+是一款经过RAG优化的尖端模型,专门设计用于处理企业级工作负载,并首先在Microsoft Azure平台上... 阅读全文

    优惠 阿里推出新型3D场景编辑框架Freditor

  • 阿里推出新型3D场景编辑框架Freditor
    AI
  • 阿里推出新型3D场景编辑框架Freditor,它通过频率分解技术实现了高保真度和可迁移性的NeRF(Neural Radiance Fields,神经辐射场)编辑。想象一下,你有一张3D渲染的日落场景图片,想要将其编辑成夜晚的样子,同时保持场景的细节和一致性。Freditor就是为此而生的工具。总之,Freditor是... 阅读全文

    优惠 基于扩散的文生图模型的可扩展性

  • 基于扩散的文生图模型的可扩展性
    AI
  • 亚马逊AWS发布论文探讨了基于扩散的文本到图像生成(Text-to-Image, T2I)模型的可扩展性。扩散模型是一种通过逐步去噪来生成图像的深度学习技术。论文的主要目的是理解如何有效地扩展这些模型以提高性能,同时降低成本。 主要功能和特点: 模型和数据集的扩展性研究:论文通过大量实验研究了扩展模型和数据集对性能的影... 阅读全文

    优惠 谷歌推出新型的基于Transformer的语言模型“Mixture-of-Depths(MoD)”

  • 谷歌推出新型的基于Transformer的语言模型“Mixture-of-Depths(MoD)”
    AI
  • 谷歌推出新型的基于Transformer的语言模型“Mixture-of-Depths”(MoD),它能够动态地在模型的不同层之间分配计算资源。传统的变换器模型在处理输入序列时,对每个标记(token)都均匀地分配计算资源。然而,并非所有的标记都需要相同的计算量来准确预测结果。MoD模型通过学习动态地决定哪些标记需要更... 阅读全文

    优惠 新型框架THINK-AND-EXECUTE:旨在提高大语言模型在算法推理任务上的表现

  • 新型框架THINK-AND-EXECUTE:旨在提高大语言模型在算法推理任务上的表现
    AI
  • 来自韩国的研究人员推出新型框架THINK-AND-EXECUTE,旨在提高大语言模型(LLMs)在算法推理任务上的表现。算法推理是指理解问题背后的复杂模式,并将其分解为一系列推理步骤以找到解决方案的能力。这种能力对于语言模型来说是一个挑战,因为它们需要将复杂的推理模式转化为一系列详细的步骤。总的来说,THINK-AND... 阅读全文

    优惠 智谱AI推出ChatGLM-Math:提升大语言模型在解决数学问题方面的能力

  • 智谱AI推出ChatGLM-Math:提升大语言模型在解决数学问题方面的能力
    AI
  • 智谱AI推出ChatGLM-Math,提升大语言模型(LLMs)在解决数学问题方面的能力。想象一下,你有一个超级聪明的机器人助手,它可以和人类一样理解和使用语言,但是当你给它一些数学题目时,它却常常束手无策或者给出错误的答案。这篇论文就是想解决这个问题,让机器人助手不仅能聊天,还能帮你解决数学题。这项研究的目标是让语言... 阅读全文

    优惠 元象首个MoE大模型XVERSE-MoE-A4.2B开源:4.2B激活参数,效果堪比13B模型

  • 元象首个MoE大模型XVERSE-MoE-A4.2B开源:4.2B激活参数,效果堪比13B模型
    AI
  • 元象发布XVERSE-MoE-A4.2B大模型 ,采用业界最前沿的混合专家模型架构,激活参数4.2B,效果即可达到13B模型水准。据介绍,XVERSE-MoE-A4.2B实现了极致压缩,相比XVERSE-13B-2仅用30%计算量,并减少50%训练时间。在多个权威评测中,元象MoE效果大幅超越Gemma-7B、Mist... 阅读全文

    优惠 普林斯顿团队发布开源版AI程序员SWE-agent

  • 普林斯顿团队发布开源版AI程序员SWE-agent
    AI
  • 普林斯顿团队开源发布了Agent打造的AI程序员SWE-agent,它能让GPT-4等大模型轻松编辑和运行代码,在SWE-bench测试集上获得与首个AI程序员Devin相似的准确度,平均耗时93秒。 项目主页:https://swe-agent.com GitHub:https://github.com/prince... 阅读全文

    优惠 先进语音合成模型VOICECRAFT:在不需要任何额外文本的情况下,对语音进行编辑和合成

  • 先进语音合成模型VOICECRAFT:在不需要任何额外文本的情况下,对语音进行编辑和合成
    AI
  • 来自德克萨斯大学奥斯汀分校和Rembrand的研究团队推出先进语音合成模型VOICECRAFT,它能够在不需要任何额外文本的情况下,对语音进行编辑和合成,这被称为零样本文本到语音(TTS)任务。想象一下,你有一段录音,想要改变里面的某些词语或者语调,而不需要重新录制整个句子,VOICECRAFT就能够做到这一点。同样,... 阅读全文

    优惠 谷歌发布视频插值生成模型VIDIM

  • 谷歌发布视频插值生成模型VIDIM
    AI
  • 谷歌发布视频插值生成模型VIDIM,它能够根据给定的起始和结束帧生成中间的短视频。想象一下,你有两张图片,一张是一个人跳起来的动作,另一张是这个人落地的动作,VIDIM能够在这两张图片之间生成一系列连贯的帧,形成一个平滑的跳跃动作视频。 主要功能和特点: 高保真视频生成: VIDIM能够生成结构连贯、动作自然流畅的高质... 阅读全文

    优惠 langchain-extract:使用大语言模型(LLMs)从文本和文件中提取信息

  • langchain-extract:使用大语言模型(LLMs)从文本和文件中提取信息
    AI
  • langchain-extract 是一个简单的网络服务器,它允许您使用大型语言模型(LLMs)从文本和文件中提取信息。该服务器基于 FastAPI、LangChain 和 Postgresql 构建。后端设计紧密遵循提取用例的文档,并提供了一个参考应用实现,帮助用户利用 LLMs 进行数据提取操作。这个仓库旨在作为构... 阅读全文