优惠普林斯顿团队发布开源版AI程序员SWE-agent

AI

推荐人：暴走AI 标签：SWE-agent AI

2年前 (2024-04-03)AI

普林斯顿团队开源发布了Agent打造的AI程序员SWE-agent，它能让GPT-4等大模型轻松编辑和运行代码，在SWE-bench测试集上获得与首个AI程序员Devin相似的准确度，平均耗时93秒。项目主页：https://swe-agent.com GitHub：https://github.com/prince... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠先进语音合成模型VOICECRAFT：在不需要任何额外文本的情况下，对语音进行编辑和合成

AI

推荐人：暴走AI 标签：VOICECRAFT AI

2年前 (2024-04-03)AI

来自德克萨斯大学奥斯汀分校和Rembrand的研究团队推出先进语音合成模型VOICECRAFT，它能够在不需要任何额外文本的情况下，对语音进行编辑和合成，这被称为零样本文本到语音（TTS）任务。想象一下，你有一段录音，想要改变里面的某些词语或者语调，而不需要重新录制整个句子，VOICECRAFT就能够做到这一点。同样，... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠谷歌发布视频插值生成模型VIDIM

AI

推荐人：暴走AI 标签：VIDIM AI

2年前 (2024-04-03)AI

谷歌发布视频插值生成模型VIDIM，它能够根据给定的起始和结束帧生成中间的短视频。想象一下，你有两张图片，一张是一个人跳起来的动作，另一张是这个人落地的动作，VIDIM能够在这两张图片之间生成一系列连贯的帧，形成一个平滑的跳跃动作视频。主要功能和特点：高保真视频生成： VIDIM能够生成结构连贯、动作自然流畅的高质... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 langchain-extract：使用大语言模型（LLMs）从文本和文件中提取信息

AI

推荐人：暴走AI 标签：langchain-extract AI

2年前 (2024-04-03)AI

langchain-extract 是一个简单的网络服务器，它允许您使用大型语言模型（LLMs）从文本和文件中提取信息。该服务器基于 FastAPI、LangChain 和 Postgresql 构建。后端设计紧密遵循提取用例的文档，并提供了一个参考应用实现，帮助用户利用 LLMs 进行数据提取操作。这个仓库旨在作为构... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开源的OpenAI API 非官方 Go 客户端Go OpenAI

AI

推荐人：暴走AI 标签：Go OpenAI AI

2年前 (2024-04-03)AI

Go OpenAI是一个开源的OpenAI API 非官方 Go 客户端，目前支持： ChatGPT GPT-3, GPT-4 DALL·E 2 Whisper... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Stable Audio 2.0：只需一句提示词，即可生成长达三分钟的音乐

AI

推荐人：暴走AI 标签：AI音乐 Stable Audio 2.0 AI

2年前 (2024-04-03)AI

Stability AI在今天推出Stable Audio 2.0，只需要一句提示词，即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目，还支持音频到音频转换能力，以及上传任意音乐对其进行风格转换。目前免费用户可生成10首歌曲，不过从听感来说，生成的歌曲并不如Suno的好听，Stable Audi... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 200多位音乐人联名呼吁：停止AI对音乐创作的滥用，保护人类创造力！

AI

推荐人：暴走AI 标签：AI音乐 AI

2年前 (2024-04-03)AI

随着各种AI音乐生成器的不断涌现，尤其是Suno 3.0的惊艳问世，许多音乐人感受到了前所未有的压力。近期，国外200多位知名音乐人联名签署了一封公开信，强烈呼吁停止AI对人类创造力的侵害，并保护艺术家免受其掠夺性使用的伤害。这封公开信的签名者横跨多个音乐流派和时代，既包括Billie Eilish、J Balvin... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 vLLM：快速且易于使用的库，专为大语言模型推理和提供服务

AI

推荐人：暴走AI 标签：vLLM AI

2年前 (2024-04-03)AI

vLLM是一个快速且易于使用的库，专为大语言模型推理和提供服务，支持目前主流的开源大模型。 vLLM之所以快，是因为它具备以下特点：领先的服务吞吐量通过PagedAttention高效管理注意力键和值内存持续批量处理传入的请求使用CUDA/HIP图进行快速模型执行量化：GPTQ、AWQ、SqueezeLLM、... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠谷歌推出新模型，用于解决视频中的密集字幕生成问题

AI

推荐人：暴走AI 标签：谷歌 AI

2年前 (2024-04-03)AI

谷歌发布论文介绍了一种新的模型，用于解决视频中的密集字幕生成问题，即在视频中预测字幕并将其定位在特定的时间段内。理想的字幕生成模型应该能够处理长时间的视频输入，生成丰富、详细的文本描述，并且在处理完整个视频之前就能够产生输出。然而，目前最先进的模型在处理视频时通常只查看少量的帧，并且在看完整个视频后才做出单一的完整预测... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠腾讯推出新型视频理解模型ST-LLM

AI

推荐人：暴走AI 标签：ST-LLM 腾讯 AI

2年前 (2024-04-03)AI

腾讯推出新型视频理解模型ST-LLM。ST-LLM的核心思想是将视频内容转化为一系列的空间-时间（spatial-temporal）标记，并将这些标记直接输入到大型语言模型（LLM）中，让模型自己学习如何理解和建模视频序列。这种方法简化了视频处理的流程，因为传统的视频理解模型通常需要复杂的结构和大量的计算资源。总的来说... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型开源多语言大语言模型AURORA-M

AI

推荐人：暴走AI 标签：Aurora-M AI

2年前 (2024-04-03)AI

这篇论文介绍了一个名为AURORA-M的新型开源多语言大型语言模型（LLM），它是为了解决现有开源预训练模型在多语言能力、持续预训练导致的灾难性遗忘问题，以及遵守人工智能安全和发展法规方面的挑战而设计的。总的来说，AURORA-M是一个强大的多语言模型，它通过持续预训练和安全性调整，提高了模型的性能和安全性，使其能够在... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠谷歌发布论文探讨如何高效地训练能够理解和处理视觉丰富文档

AI

推荐人：暴走AI 标签：VRD AI

2年前 (2024-04-03)AI

这篇论文的主题是关于如何高效地训练能够理解和处理视觉丰富文档（Visually Rich Documents，简称VRD）的语言模型。VRD是指那些结合了视觉元素（如字体大小、颜色、布局等）和语言信息来传递内容的文档，比如发票、税表、水电费账单、信息图表和保险报价单等。这些文档在商业流程中非常常见，但是它们通常以PDF... 阅读全文

直达链接好 0 不好 0 已关闭评论