推荐类别

栏目分类

优惠 3D模型L4GM:在一秒钟内从单一视角的视频输入生成动态的3D对象动画

  • 3D模型L4GM:在一秒钟内从单一视角的视频输入生成动态的3D对象动画
    AI
  • 英伟达、多伦多大学、剑桥大学、麻省理工学院和 南洋理工大学的研究人员推出新技术L4GM(Large 4D Gaussian Reconstruction Model),它能够在一秒钟内从单一视角的视频输入生成动态的3D对象动画。这就像是给视频中的物体赋予了“生命”,让它们能够在虚拟世界中动起来。这项技术的出现极大地简化... 阅读全文

    优惠 优化方法MDPO:专门为大语言模型设计的,目的是让这些模型更好地理解和响应人类的偏好

  • 优化方法MDPO:专门为大语言模型设计的,目的是让这些模型更好地理解和响应人类的偏好
    AI
  • 南加州大学、加州大学戴维斯分校和微软研究院的研究人员推出一种新的优化方法MDPO(Multimodal Direct Preference Optimization,多模态直接偏好优化)。这种方法是专门为大语言模型(LLMs)设计的,目的是让这些模型更好地理解和响应人类的偏好。通过这种方式,MDPO使得大型语言模型在处... 阅读全文

    优惠 新型模型Vid3D:通过2D视频扩散技术来合成动态的3D场景

  • 新型模型Vid3D:通过2D视频扩散技术来合成动态的3D场景
    AI
  • 新型模型Vid3D,它能够通过2D视频扩散技术来合成动态的3D场景。简单来说,Vid3D模型可以利用一张静态图片,生成一段具有时间变化和空间深度的3D视频。例如,你是一名游戏设计师,需要为一款新游戏设计一个动态的3D环境。使用Vid3D,你可以上传一张游戏场景的概念图,模型将基于这张图生成一个3D视频,展示角色或物体随... 阅读全文

    优惠 新型3D网格生成模型MeshAnything:将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格

  • 新型3D网格生成模型MeshAnything:将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格
    AI
  • 南洋理工大学S-Lab、上海人工智能实验室、复旦大学、北京大学、 中国科学院大学、商汤科技、 Stepfun和 西湖大学的研究人员推出新型3D网格生成模型MeshAnything,这个模型的特别之处在于,它能够将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格(Artist-Created Me... 阅读全文

    优惠 基准测试生成引擎Task Me Anything:为了评估大型多模态语言模型而设计

  • 基准测试生成引擎Task Me Anything:为了评估大型多模态语言模型而设计
    AI
  • 这篇论文介绍了一个名为“Task Me Anything”(简称TASK-ME-ANYTHING)的基准测试生成引擎,它是为了评估大型多模态语言模型(MLMs)而设计的。这些模型能够处理包括图像、视频、文本等在内的多种类型的数据,但在实际应用中,开发者往往难以选择最适合其特定需求的模型。为了解决这个问题,TASK-ME... 阅读全文

    优惠 对开放性的语言模型进行深入的实验分析:评估它们在不同类型的任务、应用领域和推理类型中的表现

  • 对开放性的语言模型进行深入的实验分析:评估它们在不同类型的任务、应用领域和推理类型中的表现
    AI
  • 佐治亚理工学院、斯坦福大学和亚马逊的研究人员发布论文,论文的主题是对开放性的语言模型(Open Language Models,简称LMs)进行深入的实验分析,以评估它们在不同类型的任务、应用领域和推理类型中的表现。简单来说,就像我们上学时参加不同科目的考试一样,这篇论文就是给这些语言模型出了一系列不同难度和类型的题目... 阅读全文

    优惠 最大、最多样化的开源多模态交错数据集MINT-1T

  • 最大、最多样化的开源多模态交错数据集MINT-1T
    AI
  • 华盛顿大学、Salesforce Research、斯坦福大学、德克萨斯大学奥斯汀分校、 加州大学伯克利分校的研究人员推出大规模多模态数据集MINT-1T,它是目前最大、最多样化的开源多模态交错数据集。MINT-1T的出现是为了解决目前开源大型多模态模型(LMMs)训练数据不足的问题,这些模型需要大量的图像和文本交错序... 阅读全文

    优惠 新型多模态大语言模型LLaNA:专门设计用来理解和处理一种称为NeRFs的3D数据表示

  • 新型多模态大语言模型LLaNA:专门设计用来理解和处理一种称为NeRFs的3D数据表示
    AI
  • 意大利博洛尼亚大学推出新型多模态大语言模型LLaNA(Large Language and NeRF Assistant),它专门设计用来理解和处理一种称为Neural Radiance Fields(NeRFs)的3D数据表示。NeRFs是一种先进的3D建模技术,能够捕捉物体的几何形状和逼真的外观,通常用于生成新视角... 阅读全文

    优惠 数据选择方法CoLoR-Filter:用于目标化的语言模型预训练

  • 数据选择方法CoLoR-Filter:用于目标化的语言模型预训练
    AI
  • 哈佛大学肯普纳研究所、牛津大学的研究人员推出数据选择方法CoLoR-Filter(Conditional Loss Reduction Filtering),用于目标化的语言模型预训练。简单来说,CoLoR-Filter是一种智能的筛选工具,它可以帮助我们从大量数据中挑选出最有价值的一部分,以便更高效地训练语言模型,让... 阅读全文

    优惠 基准测试和指令调整数据集MMDU:专门为大型视觉语言模型设计

  • 基准测试和指令调整数据集MMDU:专门为大型视觉语言模型设计
    AI
  • 武汉大学、上海人工智能实验室、香港中文大学和MThreads的研究人员推出基准测试和指令调整数据集MMDU(Multi-Turn Multi-Image Dialog Understanding),专门为大型视觉语言模型(LVLMs)设计的。这些模型就像人工智能助手,能够理解图片和文字,然后给出回应。但是,现有的AI助... 阅读全文

    优惠 WILDVISION:用于评估视觉-语言模型(VLMs)在现实世界中表现的在线平台

  • WILDVISION:用于评估视觉-语言模型(VLMs)在现实世界中表现的在线平台
    AI
  • 艾伦人工智能研究所、华盛顿大学、加州大学圣巴巴拉分校和滑铁卢大学的研究人员推出WILDVISION,它是一个用于评估视觉-语言模型(VLMs)在现实世界中表现的在线平台。WILDVISION通过收集人类偏好来评估这些模型,特别是在多轮对话和多模态交互中的表现。例如,你是一名AI研究员,想要比较不同视觉-语言模型在理解一... 阅读全文

    优惠 强化学习方法WPO(加权偏好优化):改善大语言模型与人类价值观的一致性

  • 强化学习方法WPO(加权偏好优化):改善大语言模型与人类价值观的一致性
    AI
  • Zoomtuic 一种新的强化学习方法WPO(加权偏好优化),它用于改善大语言模型(LLMs)与人类价值观的一致性。具体来说,WPO旨在解决在使用人类反馈进行强化学习(RLHF)时遇到的一些问题,尤其是在离策略(off-policy)偏好优化的情况下。例如,我们有一个聊天机器人,我们希望它在对话中提供安全、有帮助且准确... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?