人工智能

优惠 用于开发大型多模态模型的新框架xGen-MM

  • 用于开发大型多模态模型的新框架xGen-MM
    AI
  • Salesforce AI 研究和华盛顿大学的研究人员推出新框架xGen-MM(也被称为BLIP-3),它是用于开发大型多模态模型(LMMs)的。多模态模型,你可以想象成一种超级大脑,不仅能理解文本(比如书籍、网页上的文字),还能理解图片和视频。xGen-MM框架包含了数据集、训练方法、模型架构,以及一系列经过这些训练... 阅读全文

    优惠 阿里巴巴推出多模态大语言模型mPLUG-Owl3

  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3
    AI
  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3,它在处理单图像、多图像和视频任务方面取得了显著的进展。例如,你向mPLUG-Owl3展示一系列图片,并询问其中的天气情况,模型可以分析这些图片并告诉你哪一张是雪天。或者,如果你展示一段视频,并要求模型按时间顺序描述视频中的事件,mPLUG-Owl3可以准确地按照视频中的... 阅读全文

    优惠 HeadGAP:可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像

  • HeadGAP:可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像
    AI
  • 字节跳动和上海科技大学的研究人员推出HeadGAP,它可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像。想象一下,如果你只有一张自己的照片,HeadGAP能够用它来生成一个看起来非常像你,并且可以做出各种表情的3D头像。例如,一个用户想要在虚拟现实世界中拥有一个代表自己的3D头像,他只需要提供一张或几张... 阅读全文

    优惠 新型机器人触觉表示学习方法UniT:帮助机器人更好地理解和使用这种触觉信息

  • 新型机器人触觉表示学习方法UniT:帮助机器人更好地理解和使用这种触觉信息
    AI
  • 普渡大学和阿肯色大学的研究人员推出新型机器人触觉表示学习方法UniT,机器人需要通过触觉来感知和操作物体,就像人类通过手触摸东西一样。UniT就是帮助机器人更好地理解和使用这种触觉信息的一种技术。此外,论文还讨论了UniT在未来可能的研究方向,比如将其扩展到软物体的触觉表示学习,以及开发能够理解物理属性的触觉表示。这些... 阅读全文

    优惠 OpenResearcher:利用人工智能(AI)技术来加速科学研究进程

  • OpenResearcher:利用人工智能(AI)技术来加速科学研究进程
    AI
  • 创新平台OpenResearcher,它利用人工智能(AI)技术来加速科学研究进程。想象一下,研究人员每天都在与成堆的学术论文打交道,试图跟上他们领域内的最新进展,这既耗时又费力。OpenResearcher就像一个智能助手,可以帮助研究人员快速找到他们需要的信息,节省时间,提高研究效率。例如,如果一个生物医学研究人员... 阅读全文

    优惠 新型大语言模型LongWriter:能够生成超过10,000个词的超长文本

  • 新型大语言模型LongWriter:能够生成超过10,000个词的超长文本
    AI
  • 清华大学和智谱AI的研究人员推出新型大语言模型LongWriter,它能够生成超过10,000个词的超长文本。这在人工智能领域是一个重要的突破,因为现有的大型语言模型虽然能够处理长达100,000个词的输入,但在生成文本时却难以超过2,000个词的限制。例如,你是一位历史学家,需要写一篇关于罗马帝国历史的深入分析文章。... 阅读全文

    优惠 新型图像编辑工具MVInpainter:能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑

  • 新型图像编辑工具MVInpainter:能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑
    AI
  • 复旦大学、 阿里巴巴达摩院和湖畔实验室的研究人员推出新型图像编辑工具MVInpainter,它能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑。简单来说,MVInpainter能够在多个视角的图像中,对缺失或需要编辑的部分进行智能填充和修复,使得编辑后的图像在不同视角下保持一致性。 ... 阅读全文

    优惠 新型高保真度、高效率的波形生成模型PeriodWave-Turbo:通过对抗性流匹配优化来加速生成高质量的波形信号

  • 新型高保真度、高效率的波形生成模型PeriodWave-Turbo:通过对抗性流匹配优化来加速生成高质量的波形信号
    AI
  • 韩国亚洲大学的研究人员推出新型高保真度、高效率的波形生成模型PeriodWave-Turbo,它通过对抗性流匹配优化(Adversarial Flow Matching Optimization)来加速生成高质量的波形信号。想象一下,你想要制作一段音乐或者合成一段语音,但希望这个过程既快速又能够达到专业水准的音质。Pe... 阅读全文

    优惠 深度求索推出开源语言模型DeepSeek-Prover-V1.5:专门为在Lean 4环境中进行定理证明而设计

  • 深度求索推出开源语言模型DeepSeek-Prover-V1.5:专门为在Lean 4环境中进行定理证明而设计
    AI
  • 深度求索推出开源语言模型DeepSeek-Prover-V1.5,它专门为在Lean 4环境中进行定理证明而设计。Lean 4是一种用于数学和逻辑推理的正式证明助手。想象一下,你有一道非常复杂的数学证明题,需要一步步严格推导,DeepSeek-Prover-V1.5就像一个超级助手,可以帮助你更快更准确地完成这个过程。... 阅读全文

    优惠 阿里通义千问开源语音交互大模型Qwen2-Audio 7B:自由互动,无需输入文本

  • 阿里通义千问开源语音交互大模型Qwen2-Audio 7B:自由互动,无需输入文本
    AI
  • 阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。 作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式: 语音聊天:用户可以自由地与 Q... 阅读全文

    优惠 sprite-decompose:一种快速从动画图形中分解精灵(sprites)的方法

  • sprite-decompose:一种快速从动画图形中分解精灵(sprites)的方法
    AI
  • 这篇论文的主题是关于一种快速从动画图形中分解精灵(sprites)的方法。精灵在这里指的是构成动画视频的基本元素或图层,比如在社交媒体帖子或广告中常见的动画元素。论文还构建了一个新的数据集Crello Animation,用于评估动画图形分解的质量,并定义了基准指标来衡量分解精灵的质量。实验表明,这种方法在质量和效率的... 阅读全文

    优惠 大规模数据集和基准测试框架Openstory++:专注于实例感知的开放领域视觉叙事(Visual Storytelling)

  • 大规模数据集和基准测试框架Openstory++:专注于实例感知的开放领域视觉叙事(Visual Storytelling)
    AI
  • 华南理工大学、西湖大学、OPPO美国研究中心、中国科学院自动化研究所基础模型研究中心和阿卜杜拉国王科技大学的研究人员推出大规模数据集和基准测试框架Openstory++,它专注于实例感知的开放领域视觉叙事(Visual Storytelling)。简单来说,Openstory++旨在训练和评估人工智能模型,使其能够根据... 阅读全文