推荐类别

栏目分类

优惠 专注于东南亚语言的多语言多模态数据集中心和基准测试套件SEACrowd

  • 专注于东南亚语言的多语言多模态数据集中心和基准测试套件SEACrowd
    AI
  • 多语言多模态数据集中心和基准测试套件SEACrowd,它专注于东南亚语言。东南亚是一个语言和文化极其丰富多样的地区,拥有超过1300种本土语言和约6.71亿人口。然而,现有的人工智能(AI)模型在处理这些语言时面临着数据不足的问题,这限制了AI模型在东南亚语言上的表现。例如,一个研究者想要开发一个能够理解印尼语用户评论... 阅读全文

    优惠 新型基准测试VideoGUI:专门用于评估图形用户界面(GUI)自动化助手

  • 新型基准测试VideoGUI:专门用于评估图形用户界面(GUI)自动化助手
    AI
  • 新加坡国立大学和 微软的研究人员推出新型基准测试VideoGUI,它专门用于评估图形用户界面(GUI)自动化助手。GUI自动化是指让计算机程序自动执行图形界面中的操作,比如点击按钮、输入文字、拖拽对象等,这在很多领域都有广泛的应用前景,比如提高办公效率、简化网页浏览等。 项目主页:https://showlab.git... 阅读全文

    优惠 专门用于新视角声音合成的新型模型AV-GS:根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)

  • 专门用于新视角声音合成的新型模型AV-GS:根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)
    AI
  • 英国萨里大学和英国伦敦帝国理工学院的研究人员推出新型模型AV-GS(Audio-Visual Gaussian Splatting),它专门用于新视角声音合成(Novel View Acoustic Synthesis, NVAS),即在三维空间中,根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)。... 阅读全文

    优惠 新型多视角视频生成模型Vivid-ZOO:利用扩散模型从文本描述中生成围绕动态3D对象的多视角视频

  • 新型多视角视频生成模型Vivid-ZOO:利用扩散模型从文本描述中生成围绕动态3D对象的多视角视频
    AI
  • 阿卜杜拉国王科技大学的研究人员推出新型多视角视频生成模型Vivid-ZOO,它利用扩散模型(diffusion model)从文本描述中生成围绕动态3D对象的多视角视频。扩散模型在2D图像和视频生成方面已经取得了令人印象深刻的成果,但将这一技术应用于基于文本的多视角视频生成(Text-to-Multi-view-Vid... 阅读全文

    优惠 英伟达推出机器人学习系统RVT-2:专门设计用来让机器人通过少量的演示就能学会执行多种三维(3D)操作任务

  • 英伟达推出机器人学习系统RVT-2:专门设计用来让机器人通过少量的演示就能学会执行多种三维(3D)操作任务
    AI
  • 英伟达推出机器人学习系统RVT-2,它的全称是“Robotic View Transformer 2”。RVT-2是一个先进的模型,专门设计用来让机器人通过少量的演示就能学会执行多种三维(3D)操作任务,并且这些任务的执行精度非常高,可以达到毫米级别。RVT-2模型通过结合多种架构和系统级别的改进,显著提高了机器人3D... 阅读全文

    优惠 Adob​​e推出音频语言模型GAMA:具有先进的音频理解和复杂推理能力

  • Adob​​e推出音频语言模型GAMA:具有先进的音频理解和复杂推理能力
    AI
  • 马里兰大学和Adob​​e推出新型大型音频语言模型GAMA,它具有先进的音频理解和复杂推理能力。例如,你的智能助手不仅能听懂你说的话,还能理解周围环境中的声音,比如鸟鸣、汽车声或者人们的谈话声,甚至能够根据这些声音做出合理的推断,那么GAMA就能做到这一点。 项目主页:https://sreyan88.github.i... 阅读全文

    优惠 测试平台DCLM:通过控制数据集实验来改进语言模型

  • 测试平台DCLM:通过控制数据集实验来改进语言模型
    AI
  • 测试平台DCLM旨在通过控制数据集实验来改进语言模型。DCLM提供了一个标准化的语料库、有效的预训练配方以及一系列下游评估方法,让研究人员能够在不同的模型规模下测试不同的数据策划策略。例如,我们想要训练一个能够理解和生成人类语言的智能系统,比如一个能够回答问题或写文章的人工智能。为了做到这一点,我们需要给这个系统提供大... 阅读全文

    优惠 3D模型L4GM:在一秒钟内从单一视角的视频输入生成动态的3D对象动画

  • 3D模型L4GM:在一秒钟内从单一视角的视频输入生成动态的3D对象动画
    AI
  • 英伟达、多伦多大学、剑桥大学、麻省理工学院和 南洋理工大学的研究人员推出新技术L4GM(Large 4D Gaussian Reconstruction Model),它能够在一秒钟内从单一视角的视频输入生成动态的3D对象动画。这就像是给视频中的物体赋予了“生命”,让它们能够在虚拟世界中动起来。这项技术的出现极大地简化... 阅读全文

    优惠 优化方法MDPO:专门为大语言模型设计的,目的是让这些模型更好地理解和响应人类的偏好

  • 优化方法MDPO:专门为大语言模型设计的,目的是让这些模型更好地理解和响应人类的偏好
    AI
  • 南加州大学、加州大学戴维斯分校和微软研究院的研究人员推出一种新的优化方法MDPO(Multimodal Direct Preference Optimization,多模态直接偏好优化)。这种方法是专门为大语言模型(LLMs)设计的,目的是让这些模型更好地理解和响应人类的偏好。通过这种方式,MDPO使得大型语言模型在处... 阅读全文

    优惠 新型模型Vid3D:通过2D视频扩散技术来合成动态的3D场景

  • 新型模型Vid3D:通过2D视频扩散技术来合成动态的3D场景
    AI
  • 新型模型Vid3D,它能够通过2D视频扩散技术来合成动态的3D场景。简单来说,Vid3D模型可以利用一张静态图片,生成一段具有时间变化和空间深度的3D视频。例如,你是一名游戏设计师,需要为一款新游戏设计一个动态的3D环境。使用Vid3D,你可以上传一张游戏场景的概念图,模型将基于这张图生成一个3D视频,展示角色或物体随... 阅读全文

    优惠 新型3D网格生成模型MeshAnything:将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格

  • 新型3D网格生成模型MeshAnything:将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格
    AI
  • 南洋理工大学S-Lab、上海人工智能实验室、复旦大学、北京大学、 中国科学院大学、商汤科技、 Stepfun和 西湖大学的研究人员推出新型3D网格生成模型MeshAnything,这个模型的特别之处在于,它能够将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格(Artist-Created Me... 阅读全文

    优惠 基准测试生成引擎Task Me Anything:为了评估大型多模态语言模型而设计

  • 基准测试生成引擎Task Me Anything:为了评估大型多模态语言模型而设计
    AI
  • 这篇论文介绍了一个名为“Task Me Anything”(简称TASK-ME-ANYTHING)的基准测试生成引擎,它是为了评估大型多模态语言模型(MLMs)而设计的。这些模型能够处理包括图像、视频、文本等在内的多种类型的数据,但在实际应用中,开发者往往难以选择最适合其特定需求的模型。为了解决这个问题,TASK-ME... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?