人工智能

优惠 开放混合专家语言模型OLMoE

  • 开放混合专家语言模型OLMoE
    AI
  • 艾伦人工智能研究所、华盛顿大学和普林斯顿大学的研究人员推出开源、先进的语言模型OLMoE,OLMoE-1B-7B是这个系列中的一个模型,它有70亿个参数,但每个输入令牌仅使用10亿个参数。研究者们在5万亿个令牌上预训练了这个模型,并进一步调整,创建了OLMoE-1B-7B-INSTRUCT版本。这些模型在性能上超越了具... 阅读全文

    优惠 新型光学字符识别(OCR)模型GOT

  • 新型光学字符识别(OCR)模型GOT
    AI
  • 阶跃星辰、旷视科技、中国科学院大学和清华大学的研究人员推出新型光学字符识别(OCR)模型GOT,它是迈向OCR-2.0时代的一个尝试。OCR技术简单来说,就是让计算机能够识别图片中的文字,并将其转换成可编辑的文本格式。就像你用手机拍一张图片,然后软件能识别出图片中的文字内容,这背后用到的就是OCR技术。 GitHub:... 阅读全文

    优惠 日本NTT推出声音转换技术FastVoiceGrad

  • 日本NTT推出声音转换技术FastVoiceGrad
    AI
  • 日本NTT推出一种声音转换技术FastVoiceGrad,声音转换技术能够将一个人的声音转换成另一个人的声音,同时不改变语言内容。这项技术在多个领域都有潜在的应用价值,比如在语音合成、语音识别和娱乐产业中。例如,你正在制作一个有声读物应用,需要将文本自动转换成语音。使用FastVoiceGrad,你可以将任何文本读成听... 阅读全文

    优惠 LongCite:旨在提升大语言模型在长文本环境下生成引用的能力

  • LongCite:旨在提升大语言模型在长文本环境下生成引用的能力
    AI
  • 清华大学和智谱AI的研究人员推出一个名为LongCite的系统,它旨在提升大语言模型(LLMs)在长文本环境下生成引用的能力。LongCite通过让模型能够生成带有精细句子级引用的回答,增强了模型输出的可信度和可验证性。例如,你是一名记者,需要写一篇关于环境政策的文章。你可以使用LongCite模型来分析政府发布的长篇... 阅读全文

    优惠 新型多模态大语言模型LongLLaVA:专门设计用于高效处理大量图像

  • 新型多模态大语言模型LongLLaVA:专门设计用于高效处理大量图像
    AI
  • 香港中文大学(深圳)和深圳大数据研究院的研究人员推出新型多模态大语言模型LongLLaVA,它专门设计用于高效处理大量图像。这个模型的特点是能够在保持较低内存消耗的同时,处理高达1000张的图像,这在单个高性能GPU上是非常了不起的。例如,你是一名医生,需要分析一张高分辨率的医学图像来诊断疾病。使用LongLLaVA,... 阅读全文

    优惠 视频压缩方法OD-VAE:提高潜在视频扩散模型(LVDMs)的效率而设计

  • 视频压缩方法OD-VAE:提高潜在视频扩散模型(LVDMs)的效率而设计
    AI
  • 北京大学、程鹏实验室、兔展智能的研究人员推出视频压缩方法OD-VAE,它是为了提高潜在视频扩散模型(LVDMs)的效率而设计的。OD-VAE的核心目标是在保持视频重建质量的同时,尽可能地压缩视频数据,以便在生成视频时减少计算资源的消耗。例如,你是一名视频游戏开发者,需要生成大量的游戏内动画。使用OD-VAE,你可以将这... 阅读全文

    优惠 基于扩散模型和Transformer架构的新型音乐生成模型FluxMusic

  • 基于扩散模型和Transformer架构的新型音乐生成模型FluxMusic
    AI
  • 昆仑万维推出新型音乐生成模型FluxMusic,它基于扩散模型和Transformer架构,能够根据文本描述生成音乐。这个模型特别之处在于它使用了一种称为“修正流(Rectified Flow)”的技术,以及在潜在的变分自编码器(VAE)空间中对旋律频谱进行操作。FluxMusic通过结合先进的文本处理技术和音乐生成算... 阅读全文

    优惠 新型视频生成方法Compositional 3D-aware Video Generation:通过将视频分解成不同的3D概念,并利用大语言模型来指导如何将这些概念组合成最终的视频

  • 新型视频生成方法Compositional 3D-aware Video Generation:通过将视频分解成不同的3D概念,并利用大语言模型来指导如何将这些概念组合成最终的视频
    AI
  • 中国科学技术大学、微软亚洲研究院和上海交通大学的研究人员推出新型视频生成方法Compositional 3D-aware Video Generation,这个方法的核心是通过将视频分解成不同的3D概念,并利用大语言模型(LLM)来指导如何将这些概念组合成最终的视频。这个方法的创新之处在于它将视频生成过程分解为可控制的... 阅读全文

    优惠 新型视频理解框架VideoLLaMB:专门设计来处理和理解长时间视频内容

  • 新型视频理解框架VideoLLaMB:专门设计来处理和理解长时间视频内容
    AI
  • 北京通用人工智能研究院 (BIGAI)、美国加州大学圣克鲁斯分校计算机科学与工程系、北京大学王选计算机技术研究所和通用人工智能国家重点实验室的研究人员推出新型视频理解框架VideoLLaMB,这个框架专门设计来处理和理解长时间视频内容,它通过一种特别的方式来编码整个视频序列,同时保留历史视觉数据,以此来提高模型在各种任... 阅读全文

    优惠 基于音频的端到端会话模型Mini-Omni:能够实现实时语音互动

  • 基于音频的端到端会话模型Mini-Omni:能够实现实时语音互动
    AI
  • 清华大学的研究人员推出多模态语言模型Mini-Omni,它能够实时地进行语音交互。想象一下,你有一个智能助手,不仅能理解你说的话,还能用语音回答你的问题,就像和真人对话一样自然。Mini-Omni就是这样一个模型,它能够“听”和“说”,同时还能进行思考。 GitHub:https://github.com/gpt-om... 阅读全文

    优惠 新型时间序列预测方法VISIONTS:将时间序列数据视为图像,利用在图像上预训练的模型来进行预测

  • 新型时间序列预测方法VISIONTS:将时间序列数据视为图像,利用在图像上预训练的模型来进行预测
    AI
  • 浙江大学、道富科技(浙江)有限公司、Salesforce 亚洲研究中心的研究人员推出一种新型的时间序列预测方法,名为VISIONTS。时间序列预测是一种预测未来数据点的技术,这些数据点是按照时间顺序排列的,比如股票价格、气温变化或者网站流量等。 GitHub:https://github.com/Keytoyze/Vi... 阅读全文

    优惠 CrossViewDiff:用于卫星图像到街景图像合成的跨视角扩散模型

  • CrossViewDiff:用于卫星图像到街景图像合成的跨视角扩散模型
    AI
  • 中山大学、上海人工智能实验室和商汤科技的研究人员推出一个名为CrossViewDiff的模型,它是一个用于卫星图像到街景图像合成的跨视角扩散模型。简单来说,这个模型能够将从高空卫星拍摄的图像转换成仿佛在地面上拍摄的街景图像。 项目主页:https://opendatalab.github.io/CrossViewDif... 阅读全文