推荐类别

栏目分类

优惠 新型视觉模型MM-SAM:处理多种传感器数据,进行鲁棒且准确的场景分割

  • 新型视觉模型MM-SAM:处理多种传感器数据,进行鲁棒且准确的场景分割
    AI
  • 新加坡南洋理工大学、日本东京大学、RIKEN AIP和日本奈良科学技术大学的研究人员推出新型视觉模型MM-SAM(Multi-Modal Segment Anything Model),它能够处理多种传感器数据,进行鲁棒且准确的场景分割。场景分割是一种让计算机识别并区分图像中各个物体或区域的技术,这项技术在自动驾驶、机... 阅读全文

    优惠 新型3D重建模型MeshFormer:通过少量的多视角RGB图像和它们的法线图作为输入,快速生成具有精细几何细节的高质量3D纹理网格

  • 新型3D重建模型MeshFormer:通过少量的多视角RGB图像和它们的法线图作为输入,快速生成具有精细几何细节的高质量3D纹理网格
    AI
  • 加州大学圣地亚哥分校、Hillbot 、 浙江大学和加州大学洛杉矶分校的研究人员推出新型3D重建模型MeshFormer,它能够通过少量的多视角RGB图像和它们的法线图作为输入,快速生成具有精细几何细节的高质量3D纹理网格。简单来说,MeshFormer就像一个高级的3D摄影师,能够用几张不同角度的照片,迅速复原出一个... 阅读全文

    优惠 为处理长视频内容而设计的多模态视觉语言模型LongVILA

  • 为处理长视频内容而设计的多模态视觉语言模型LongVILA
    AI
  • 英伟达、麻省理工学院、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员推出LongVILA系统,它是一个为处理长视频内容而设计的多模态视觉语言模型。例如,我们有一段非常长的视频,比如一场足球比赛或者一个长时间的教学视频,我们需要一个智能系统来理解视频中的内容,甚至能够根据视频内容生成描述或者回答有关视频的问题。Lo... 阅读全文

    优惠 JPEG-LM:将大语言模型应用于图像和视频生成领域,通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频

  • JPEG-LM:将大语言模型应用于图像和视频生成领域,通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频
    AI
  • 华盛顿大学和Meta的研究人员发布论文,论文的主题是探讨如何将大语言模型(LLMs)应用于图像和视频生成领域,提出了一种新颖的方法,即通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频。这种方法与传统的基于像素值或向量量化的方法不同,它直接处理压缩文件字节,从而简化了视觉数据的离散化过程。例... 阅读全文

    优惠 用于开发大型多模态模型的新框架xGen-MM

  • 用于开发大型多模态模型的新框架xGen-MM
    AI
  • Salesforce AI 研究和华盛顿大学的研究人员推出新框架xGen-MM(也被称为BLIP-3),它是用于开发大型多模态模型(LMMs)的。多模态模型,你可以想象成一种超级大脑,不仅能理解文本(比如书籍、网页上的文字),还能理解图片和视频。xGen-MM框架包含了数据集、训练方法、模型架构,以及一系列经过这些训练... 阅读全文

    优惠 Gravatar推出「自定义域名」功能,免费使用.Link域名一年!

  • Gravatar推出「自定义域名」功能,免费使用.Link域名一年!
    工具
  • Gravatar 是一项广为人知的个人头像托管服务,尤其对于那些经历过早期 WordPress 自建博客时代的人来说并不陌生。那时,人们常常在文章下方的评论区留下反馈,通过注册 Gravatar 并上传头像以及关联邮箱,就可以在支持的服务中展示个人头像。随着时间的发展,Gravatar 逐渐完善了个人页面的功能。现在,... 阅读全文

    优惠 跨平台提词器工具FlowPrompter

  • 跨平台提词器工具FlowPrompter
    工具
  • FlowPrompter 是一款简单易用的提词器工具,目前免费使用,拥有 Windows、macOS 客户端,以及 Web 界面,适合于网络会议、屏幕录制、直播、演讲等不同场合。界面仅自己可见,针对屏幕共享、录制、截图均隐藏。@Appinn... 阅读全文

    优惠 免费在线Logo生成器LogoFast,无需设计经验无需注册,打开即用

  • 免费在线Logo生成器LogoFast,无需设计经验无需注册,打开即用
    工具
  • LogoFast 是一款免费的在线Logo生成器,无需安装软件或注册账号,只需在浏览器中打开即可使用。该工具包含 Lucide 图标集(超过 1000 种图案),用户可以轻松选择图案并进行编辑,包括调整标志的形状、尺寸、旋转角度、边框宽度和颜色等。此外,还可以设置背景的圆角、填充空间、阴影和渐变色等参数。完成设计后,用... 阅读全文

    优惠 阿里巴巴推出多模态大语言模型mPLUG-Owl3

  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3
    AI
  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3,它在处理单图像、多图像和视频任务方面取得了显著的进展。例如,你向mPLUG-Owl3展示一系列图片,并询问其中的天气情况,模型可以分析这些图片并告诉你哪一张是雪天。或者,如果你展示一段视频,并要求模型按时间顺序描述视频中的事件,mPLUG-Owl3可以准确地按照视频中的... 阅读全文

    优惠 HeadGAP:可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像

  • HeadGAP:可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像
    AI
  • 字节跳动和上海科技大学的研究人员推出HeadGAP,它可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像。想象一下,如果你只有一张自己的照片,HeadGAP能够用它来生成一个看起来非常像你,并且可以做出各种表情的3D头像。例如,一个用户想要在虚拟现实世界中拥有一个代表自己的3D头像,他只需要提供一张或几张... 阅读全文

    优惠 新型机器人触觉表示学习方法UniT:帮助机器人更好地理解和使用这种触觉信息

  • 新型机器人触觉表示学习方法UniT:帮助机器人更好地理解和使用这种触觉信息
    AI
  • 普渡大学和阿肯色大学的研究人员推出新型机器人触觉表示学习方法UniT,机器人需要通过触觉来感知和操作物体,就像人类通过手触摸东西一样。UniT就是帮助机器人更好地理解和使用这种触觉信息的一种技术。此外,论文还讨论了UniT在未来可能的研究方向,比如将其扩展到软物体的触觉表示学习,以及开发能够理解物理属性的触觉表示。这些... 阅读全文

    优惠 OpenResearcher:利用人工智能(AI)技术来加速科学研究进程

  • OpenResearcher:利用人工智能(AI)技术来加速科学研究进程
    AI
  • 创新平台OpenResearcher,它利用人工智能(AI)技术来加速科学研究进程。想象一下,研究人员每天都在与成堆的学术论文打交道,试图跟上他们领域内的最新进展,这既耗时又费力。OpenResearcher就像一个智能助手,可以帮助研究人员快速找到他们需要的信息,节省时间,提高研究效率。例如,如果一个生物医学研究人员... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?