3D

优惠 Latent Diffusion Models:用于在极短的时间内从2D图像数据高效生成3D场景

  • Latent Diffusion Models:用于在极短的时间内从2D图像数据高效生成3D场景
    AI
  • 格拉斯哥大学和爱丁堡大学的研究人员推出新技术Latent Diffusion Models,用于在极短的时间内从2D图像数据高效生成3D场景。这项技术的核心是一种自编码器,它能够将多视角的2D图像映射到3D高斯Splats,同时构建这些Splats的压缩潜在表示。简单来说,就是通过一个智能的转换过程,把平面的多角度图片... 阅读全文

    优惠 Snap公司发布了Lens Studio 5.0,引入了GenAI套件和插件支持

  • Snap公司发布了Lens Studio 5.0,引入了GenAI套件和插件支持
    AI
  • Snap公司推出了Lens Studio 5.0版本,引入了重大的增强功能,旨在推进增强现实(AR)创作。该更新特有GenAI Suite,它整合了机器学习工具和3D资产生成,通过文本或图像提示简化AR创作。新版本支持插件系统,允许开发者扩展编辑器的功能并定制工作流程。这次更新速度提升了18倍,增强了开发者的生产力和模... 阅读全文

    优惠 Depth Anywhere:360度全景图像的深度估计的准确性

  • Depth Anywhere:360度全景图像的深度估计的准确性
    AI
  • 阳明交通大学的研究人员推出Depth Anywhere,提高360度全景图像的深度估计的准确性。深度估计是一种计算机视觉技术,它可以帮助计算机理解图像中物体的远近关系,这对于虚拟现实、自动驾驶导航和沉浸式媒体应用等领域非常重要。此方法在一些基准数据集上进行了测试,显示出在零样本(zero-shot)情况下,也就是模型在... 阅读全文

    优惠 HumanSplat:通过单张图片来预测任何人的3D高斯Splatting属性

  • HumanSplat:通过单张图片来预测任何人的3D高斯Splatting属性
    AI
  • 字节跳动、北京大学、厦门大学和清华大学的研究人员推出新技术HumanSplat,它能够通过单张图片来预测任何人的3D高斯Splatting属性。简单来说,就是利用人工智能技术,从一张照片中重建出一个逼真的3D人体模型。这项技术的出现,不仅推动了计算机视觉领域的发展,也为3D内容的创建和展示提供了新的可能性。 项目主页:... 阅读全文

    优惠 4Real:从文本提示生成接近照片级逼真度的四维场景(4D场景)的生成框架

  • 4Real:从文本提示生成接近照片级逼真度的四维场景(4D场景)的生成框架
    AI
  • Snap和卡内基梅隆大学的研究人员推出4Real系统,它是一个能够从文本提示生成接近照片级逼真度的四维场景(4D场景)的生成框架。四维在这里指的是包括时间维度的三维动态场景。4Real利用了视频扩散模型(video diffusion models)和可变形的三维高斯Splats(Deformable 3D Gauss... 阅读全文

    优惠 大规模数据集3D-GRAND:为了提升三维语言模型的理解和减少幻觉而设计

  • 大规模数据集3D-GRAND:为了提升三维语言模型的理解和减少幻觉而设计
    AI
  • 密歇根大学和 纽约大学的研究人员推出大规模数据集3D-GRAND,它是为了提升三维语言模型(3D-LLMs)的理解和减少幻觉(hallucination,即模型错误地生成不存在的对象或信息)而设计的。例如,你有一个智能助手,它能够理解你关于房间中物品的描述,并据此回答问题或执行任务,但如果没有足够的信息,它可能会“想象... 阅读全文

    优惠 新型3D绘画技术Consistency2:利用潜在一致性模型来加速和改进3D模型表面的纹理绘制

  • 新型3D绘画技术Consistency2:利用潜在一致性模型来加速和改进3D模型表面的纹理绘制
    AI
  • 苏黎世联邦理工学院推出新型3D绘画技术Consistency2,这项技术的核心是利用潜在一致性模型(Latent Consistency Models, LCM)来加速和改进3D模型表面的纹理绘制。想象一下,如果你是一名3D艺术家,想要给一个3D模型快速添加纹理,就像给一个3D打印的玩具车涂上颜色一样,但这个过程是在计... 阅读全文

    优惠 新型多视角视频生成模型Vivid-ZOO:利用扩散模型从文本描述中生成围绕动态3D对象的多视角视频

  • 新型多视角视频生成模型Vivid-ZOO:利用扩散模型从文本描述中生成围绕动态3D对象的多视角视频
    AI
  • 阿卜杜拉国王科技大学的研究人员推出新型多视角视频生成模型Vivid-ZOO,它利用扩散模型(diffusion model)从文本描述中生成围绕动态3D对象的多视角视频。扩散模型在2D图像和视频生成方面已经取得了令人印象深刻的成果,但将这一技术应用于基于文本的多视角视频生成(Text-to-Multi-view-Vid... 阅读全文

    优惠 3D模型L4GM:在一秒钟内从单一视角的视频输入生成动态的3D对象动画

  • 3D模型L4GM:在一秒钟内从单一视角的视频输入生成动态的3D对象动画
    AI
  • 英伟达、多伦多大学、剑桥大学、麻省理工学院和 南洋理工大学的研究人员推出新技术L4GM(Large 4D Gaussian Reconstruction Model),它能够在一秒钟内从单一视角的视频输入生成动态的3D对象动画。这就像是给视频中的物体赋予了“生命”,让它们能够在虚拟世界中动起来。这项技术的出现极大地简化... 阅读全文

    优惠 新型模型Vid3D:通过2D视频扩散技术来合成动态的3D场景

  • 新型模型Vid3D:通过2D视频扩散技术来合成动态的3D场景
    AI
  • 新型模型Vid3D,它能够通过2D视频扩散技术来合成动态的3D场景。简单来说,Vid3D模型可以利用一张静态图片,生成一段具有时间变化和空间深度的3D视频。例如,你是一名游戏设计师,需要为一款新游戏设计一个动态的3D环境。使用Vid3D,你可以上传一张游戏场景的概念图,模型将基于这张图生成一个3D视频,展示角色或物体随... 阅读全文

    优惠 新型3D网格生成模型MeshAnything:将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格

  • 新型3D网格生成模型MeshAnything:将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格
    AI
  • 南洋理工大学S-Lab、上海人工智能实验室、复旦大学、北京大学、 中国科学院大学、商汤科技、 Stepfun和 西湖大学的研究人员推出新型3D网格生成模型MeshAnything,这个模型的特别之处在于,它能够将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格(Artist-Created Me... 阅读全文

    优惠 新型多模态大语言模型LLaNA:专门设计用来理解和处理一种称为NeRFs的3D数据表示

  • 新型多模态大语言模型LLaNA:专门设计用来理解和处理一种称为NeRFs的3D数据表示
    AI
  • 意大利博洛尼亚大学推出新型多模态大语言模型LLaNA(Large Language and NeRF Assistant),它专门设计用来理解和处理一种称为Neural Radiance Fields(NeRFs)的3D数据表示。NeRFs是一种先进的3D建模技术,能够捕捉物体的几何形状和逼真的外观,通常用于生成新视角... 阅读全文