人工智能

优惠 开源的OpenAI API 非官方 Go 客户端Go OpenAI

  • 开源的OpenAI API 非官方 Go 客户端Go OpenAI
    AI
  • Go OpenAI是一个开源的OpenAI API 非官方 Go 客户端,目前支持: ChatGPT GPT-3, GPT-4 DALL·E 2 Whisper... 阅读全文

    优惠 Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐

  • Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐
    AI
  • Stability AI在今天推出Stable Audio 2.0,只需要一句提示词,即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目,还支持音频到音频转换能力,以及上传任意音乐对其进行风格转换。目前免费用户可生成10首歌曲,不过从听感来说,生成的歌曲并不如Suno的好听,Stable Audi... 阅读全文

    优惠 200多位音乐人联名呼吁:停止AI对音乐创作的滥用,保护人类创造力!

  • 200多位音乐人联名呼吁:停止AI对音乐创作的滥用,保护人类创造力!
    AI
  • 随着各种AI音乐生成器的不断涌现,尤其是Suno 3.0的惊艳问世,许多音乐人感受到了前所未有的压力。近期,国外200多位知名音乐人联名签署了一封公开信,强烈呼吁停止AI对人类创造力的侵害,并保护艺术家免受其掠夺性使用的伤害。 这封公开信的签名者横跨多个音乐流派和时代,既包括Billie Eilish、J Balvin... 阅读全文

    优惠 vLLM:快速且易于使用的库,专为大语言模型推理和提供服务

  • vLLM:快速且易于使用的库,专为大语言模型推理和提供服务
    AI
  • vLLM是一个快速且易于使用的库,专为大语言模型推理和提供服务,支持目前主流的开源大模型。 vLLM之所以快,是因为它具备以下特点: 领先的服务吞吐量 通过PagedAttention高效管理注意力键和值内存 持续批量处理传入的请求 使用CUDA/HIP图进行快速模型执行 量化:GPTQ、AWQ、SqueezeLLM、... 阅读全文

    优惠 谷歌推出新模型,用于解决视频中的密集字幕生成问题

  • 谷歌推出新模型,用于解决视频中的密集字幕生成问题
    AI
  • 谷歌发布论文介绍了一种新的模型,用于解决视频中的密集字幕生成问题,即在视频中预测字幕并将其定位在特定的时间段内。理想的字幕生成模型应该能够处理长时间的视频输入,生成丰富、详细的文本描述,并且在处理完整个视频之前就能够产生输出。然而,目前最先进的模型在处理视频时通常只查看少量的帧,并且在看完整个视频后才做出单一的完整预测... 阅读全文

    优惠 腾讯推出新型视频理解模型ST-LLM

  • 腾讯推出新型视频理解模型ST-LLM
    AI
  • 腾讯推出新型视频理解模型ST-LLM。ST-LLM的核心思想是将视频内容转化为一系列的空间-时间(spatial-temporal)标记,并将这些标记直接输入到大型语言模型(LLM)中,让模型自己学习如何理解和建模视频序列。这种方法简化了视频处理的流程,因为传统的视频理解模型通常需要复杂的结构和大量的计算资源。总的来说... 阅读全文

    优惠 新型开源多语言大语言模型AURORA-M

  • 新型开源多语言大语言模型AURORA-M
    AI
  • 这篇论文介绍了一个名为AURORA-M的新型开源多语言大型语言模型(LLM),它是为了解决现有开源预训练模型在多语言能力、持续预训练导致的灾难性遗忘问题,以及遵守人工智能安全和发展法规方面的挑战而设计的。总的来说,AURORA-M是一个强大的多语言模型,它通过持续预训练和安全性调整,提高了模型的性能和安全性,使其能够在... 阅读全文

    优惠 谷歌发布论文探讨如何高效地训练能够理解和处理视觉丰富文档

  • 谷歌发布论文探讨如何高效地训练能够理解和处理视觉丰富文档
    AI
  • 这篇论文的主题是关于如何高效地训练能够理解和处理视觉丰富文档(Visually Rich Documents,简称VRD)的语言模型。VRD是指那些结合了视觉元素(如字体大小、颜色、布局等)和语言信息来传递内容的文档,比如发票、税表、水电费账单、信息图表和保险报价单等。这些文档在商业流程中非常常见,但是它们通常以PDF... 阅读全文

    优惠 新型语音大语言模型WavLLM:提高语言模型在处理和理解语音方面的性能

  • 新型语音大语言模型WavLLM:提高语言模型在处理和理解语音方面的性能
    AI
  • 微软发布新型语音大型语言模型WavLLM,它旨在提高语言模型在处理和理解语音方面的性能。WavLLM通过结合两个编码器(Whisper和WavLM)来分别处理语音的语义内容和说话者的身份特征。该模型采用分阶段的课程学习方法,先从简单的单一任务开始训练,逐步过渡到更复杂的多任务。 例如,如果一个学生正在准备高考英语听力部... 阅读全文

    优惠 基准测试集LongICLBench:大语言模型在处理长篇幅上下文学习任务时的表现

  • 基准测试集LongICLBench:大语言模型在处理长篇幅上下文学习任务时的表现
    AI
  • 来自滑铁卢大学、卡内基·梅隆大学和Vector Institute探讨了大语言模型(LLMs)在处理长篇幅上下文学习任务时的表现。研究者们发现,尽管LLMs在处理短上下文任务时表现出色,但当上下文长度增加时,它们的性能会显著下降。为了更全面地评估LLMs在长上下文学习中的能力,研究者们创建了一个专门的基准测试集Long... 阅读全文

    优惠 英特尔推出多模态基础模型(MMFM)套件LLaVA-Gemma

  • 英特尔推出多模态基础模型(MMFM)套件LLaVA-Gemma
    AI
  • 英特尔推出多模态基础模型(MMFM)套件LLaVA-Gemma,它利用了最近发布的Gemma系列大语言模型(LLMs)。特别是2B参数的Gemma模型,为构建能力强大的小型多模态基础模型提供了机会。LLaVA-Gemma模型在多种评估中表现中等,但未能超越当前类似规模的最先进模型。研究者们对三个设计特征进行了测试:预训... 阅读全文

    优惠 新型大语言模型套件EURUS:针对推理任务进行了优化

  • 新型大语言模型套件EURUS:针对推理任务进行了优化
    AI
  • 来自清华大学、伊利诺伊大学香槟分校、美国东北大学、ModelBest、中国人民大学、北京邮电大学和腾讯的研究人员推出新型大语言模型(LLM)套件EURUS,它专门针对推理任务进行了优化。这些模型在数学、代码生成和逻辑推理等多个复杂推理基准测试中取得了优异的表现,尤其是在LeetCode和TheoremQA这两个具有挑战... 阅读全文