AI

优惠 最强开源大语言模型?AI初创公司OthersideAI 推出Reflection 70B模型,能够识别推理过程中的错误并进行修正

  • 最强开源大语言模型?AI初创公司OthersideAI 推出Reflection 70B模型,能够识别推理过程中的错误并进行修正
    AI
  • AI初创公司OthersideAI 开源了Reflection 70B模型,号称是世界上最顶级的开源大语言模型,它采用了一种名为反射调优(Reflection-Tuning)的创新技术,使模型能够识别推理过程中的错误并进行修正。Reflection 70B 基于 Llama 3.1 70B Instruct,可以使用与... 阅读全文

    优惠 新型文本到三维(Text-to-3D)模型GIMDiffusion:能够根据文本描述生成高质量的三维对象,而且生成速度快,数据需求量小,并且能够有效处理复杂的三维表示

  • 新型文本到三维(Text-to-3D)模型GIMDiffusion:能够根据文本描述生成高质量的三维对象,而且生成速度快,数据需求量小,并且能够有效处理复杂的三维表示
    AI
  • Unity推出新型文本到三维(Text-to-3D)模型GIMDiffusion,这个模型能够根据文本描述生成高质量的三维对象,而且生成速度快,数据需求量小,并且能够有效处理复杂的三维表示。例如,你是一名游戏设计师,需要为即将推出的游戏中设计一个“幻想风格的金属盾牌”。使用GIMDiffusion,你只需输入这个文本描... 阅读全文

    优惠 新型多模态大语言模型mPLUG-DocOwl2:专门设计用于高效地理解高分辨率的多页文档,而无需依赖光学字符识别(OCR)技术

  • 新型多模态大语言模型mPLUG-DocOwl2:专门设计用于高效地理解高分辨率的多页文档,而无需依赖光学字符识别(OCR)技术
    AI
  • 阿里巴巴和人民大学的研究人员推出新型多模态大语言模型mPLUG-DocOwl2,它专门设计用于高效地理解高分辨率的多页文档,而无需依赖光学字符识别(OCR)技术。这个模型通过压缩文档图像来减少处理所需的视觉标记数量,从而提高了理解和分析文档的速度和效率。 GitHub:https://github.com/X-PLUG... 阅读全文

    优惠 新型公式识别评估指标CDM:为了更公平、准确地评估数学公式识别模型的性能

  • 新型公式识别评估指标CDM:为了更公平、准确地评估数学公式识别模型的性能
    AI
  • 上海市人工智能实验室和上海交通大学的研究人员推出新型公式识别评估指标CDM,这个指标的目的是为了更公平、准确地评估数学公式识别模型的性能。例如,你有一个数学公式 (x+y)+z=x+(y+z)(x+y)+z=x+(y+z),并且你使用了一个公式识别模型来识别这个公式。模型可能以不同的LaTeX代码表示这个公式,例如 (... 阅读全文

    优惠 开放混合专家语言模型OLMoE

  • 开放混合专家语言模型OLMoE
    AI
  • 艾伦人工智能研究所、华盛顿大学和普林斯顿大学的研究人员推出开源、先进的语言模型OLMoE,OLMoE-1B-7B是这个系列中的一个模型,它有70亿个参数,但每个输入令牌仅使用10亿个参数。研究者们在5万亿个令牌上预训练了这个模型,并进一步调整,创建了OLMoE-1B-7B-INSTRUCT版本。这些模型在性能上超越了具... 阅读全文

    优惠 新型光学字符识别(OCR)模型GOT

  • 新型光学字符识别(OCR)模型GOT
    AI
  • 阶跃星辰、旷视科技、中国科学院大学和清华大学的研究人员推出新型光学字符识别(OCR)模型GOT,它是迈向OCR-2.0时代的一个尝试。OCR技术简单来说,就是让计算机能够识别图片中的文字,并将其转换成可编辑的文本格式。就像你用手机拍一张图片,然后软件能识别出图片中的文字内容,这背后用到的就是OCR技术。 GitHub:... 阅读全文

    优惠 日本NTT推出声音转换技术FastVoiceGrad

  • 日本NTT推出声音转换技术FastVoiceGrad
    AI
  • 日本NTT推出一种声音转换技术FastVoiceGrad,声音转换技术能够将一个人的声音转换成另一个人的声音,同时不改变语言内容。这项技术在多个领域都有潜在的应用价值,比如在语音合成、语音识别和娱乐产业中。例如,你正在制作一个有声读物应用,需要将文本自动转换成语音。使用FastVoiceGrad,你可以将任何文本读成听... 阅读全文

    优惠 LongCite:旨在提升大语言模型在长文本环境下生成引用的能力

  • LongCite:旨在提升大语言模型在长文本环境下生成引用的能力
    AI
  • 清华大学和智谱AI的研究人员推出一个名为LongCite的系统,它旨在提升大语言模型(LLMs)在长文本环境下生成引用的能力。LongCite通过让模型能够生成带有精细句子级引用的回答,增强了模型输出的可信度和可验证性。例如,你是一名记者,需要写一篇关于环境政策的文章。你可以使用LongCite模型来分析政府发布的长篇... 阅读全文

    优惠 新型多模态大语言模型LongLLaVA:专门设计用于高效处理大量图像

  • 新型多模态大语言模型LongLLaVA:专门设计用于高效处理大量图像
    AI
  • 香港中文大学(深圳)和深圳大数据研究院的研究人员推出新型多模态大语言模型LongLLaVA,它专门设计用于高效处理大量图像。这个模型的特点是能够在保持较低内存消耗的同时,处理高达1000张的图像,这在单个高性能GPU上是非常了不起的。例如,你是一名医生,需要分析一张高分辨率的医学图像来诊断疾病。使用LongLLaVA,... 阅读全文

    优惠 视频压缩方法OD-VAE:提高潜在视频扩散模型(LVDMs)的效率而设计

  • 视频压缩方法OD-VAE:提高潜在视频扩散模型(LVDMs)的效率而设计
    AI
  • 北京大学、程鹏实验室、兔展智能的研究人员推出视频压缩方法OD-VAE,它是为了提高潜在视频扩散模型(LVDMs)的效率而设计的。OD-VAE的核心目标是在保持视频重建质量的同时,尽可能地压缩视频数据,以便在生成视频时减少计算资源的消耗。例如,你是一名视频游戏开发者,需要生成大量的游戏内动画。使用OD-VAE,你可以将这... 阅读全文

    优惠 基于扩散模型和Transformer架构的新型音乐生成模型FluxMusic

  • 基于扩散模型和Transformer架构的新型音乐生成模型FluxMusic
    AI
  • 昆仑万维推出新型音乐生成模型FluxMusic,它基于扩散模型和Transformer架构,能够根据文本描述生成音乐。这个模型特别之处在于它使用了一种称为“修正流(Rectified Flow)”的技术,以及在潜在的变分自编码器(VAE)空间中对旋律频谱进行操作。FluxMusic通过结合先进的文本处理技术和音乐生成算... 阅读全文

    优惠 新型视频生成方法Compositional 3D-aware Video Generation:通过将视频分解成不同的3D概念,并利用大语言模型来指导如何将这些概念组合成最终的视频

  • 新型视频生成方法Compositional 3D-aware Video Generation:通过将视频分解成不同的3D概念,并利用大语言模型来指导如何将这些概念组合成最终的视频
    AI
  • 中国科学技术大学、微软亚洲研究院和上海交通大学的研究人员推出新型视频生成方法Compositional 3D-aware Video Generation,这个方法的核心是通过将视频分解成不同的3D概念,并利用大语言模型(LLM)来指导如何将这些概念组合成最终的视频。这个方法的创新之处在于它将视频生成过程分解为可控制的... 阅读全文