推荐类别

栏目分类

优惠 WildGaussians:用于在各种环境条件下进行高质量的3D场景重建

  • WildGaussians:用于在各种环境条件下进行高质量的3D场景重建
    AI
  • 苏黎世联邦理工学院、布拉格 CTU的研究人员推出WildGaussians,它用于在各种环境条件下进行高质量的3D场景重建。这项技术特别擅长处理那些在野外捕获的数据,比如存在遮挡、动态物体和不同光照条件的场景。例如,你手上有一堆在不同时间、不同光照条件下拍摄的某个地标的照片,比如布拉格的查理大桥或者罗马的特雷维喷泉。现... 阅读全文

    优惠 新型视频帧插值方法GIMM:在这一系列照片之间生成更多的照片,让整个动作看起来更加平滑连贯

  • 新型视频帧插值方法GIMM:在这一系列照片之间生成更多的照片,让整个动作看起来更加平滑连贯
    AI
  • 南洋理工大学的研究人员推出新型视频帧插值方法GIMM(Generalizable Implicit Motion Modeling),视频帧插值是一种在两个已有视频帧之间生成中间帧的技术,它对于提高视频质量、创建新的视频视角以及视频压缩等应用至关重要。例如,你手里有一些照片,它们记录了一个人在做后空翻的整个过程,但是照... 阅读全文

    优惠 地图数据引擎Map It Anywhere (MIA):利用大规模的公共数据来增强从第一人称视角(FPV)图像预测鸟瞰图(BEV)地图

  • 地图数据引擎Map It Anywhere (MIA):利用大规模的公共数据来增强从第一人称视角(FPV)图像预测鸟瞰图(BEV)地图
    AI
  • 卡内基梅隆大学和布法罗大学的研究人员推出数据引擎Map It Anywhere (MIA) ,它能够利用大规模的公共数据来增强从第一人称视角(FPV)图像预测鸟瞰图(BEV)地图的能力。简单来说,MIA能够帮助我们从人们日常拍摄的街景照片中自动创建出用于导航的地图。 项目主页:https://mapitanywhere... 阅读全文

    优惠 新基准测试GTA:评估和提升大语言模型在现实世界场景中使用各种工具的能力

  • 新基准测试GTA:评估和提升大语言模型在现实世界场景中使用各种工具的能力
    AI
  • 上海交通大学和上海人工智能实验室的研究人员推出新基准测试GTA(General Tool Agents),它是为了评估和提升大语言模型(LLMs)在现实世界场景中使用各种工具的能力而设计的。GTA基准测试的主要挑战在于,现有的评估方法往往使用人工智能生成的查询、单一步骤任务、虚拟工具和仅限文本的交互,这些都不能有效地揭... 阅读全文

    优惠 新型多模态大语言模型DenseFusion-1M:通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力

  • 新型多模态大语言模型DenseFusion-1M:通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力
    AI
  • 北京大学、北京人工智能研究院和大连理工大学的研究人员推出一种新型多模态大型语言模型DenseFusion-1M,它通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力。这些模型能够理解图像中的多个对象、文本信息和空间关系,但它们的性能很大程度上受限于可用的高质量图像-文本数据集的质量。 GitHub:https:/... 阅读全文

    优惠 专门为视觉应用设计的新型混合模型架构MambaVision

  • 专门为视觉应用设计的新型混合模型架构MambaVision
    AI
  • 英伟达推出一种新型的混合模型架构——MambaVision,它是专门为视觉应用设计的。MambaVision的核心贡献在于重新设计了Mamba公式,以增强其对视觉特征的高效建模能力。此外,论文还对将视觉变换器(ViT)与Mamba集成的可行性进行了全面的研究。 GitHub:https://github.com/NVl... 阅读全文

    优惠 新型多模态大语言模型的调优范式MAVIS:专门针对数学视觉问题解决能力的提升

  • 新型多模态大语言模型的调优范式MAVIS:专门针对数学视觉问题解决能力的提升
    AI
  • 香港中文大学、北京大学、上海人工智能实验室和甲骨文公司的研究人员推出新型多模态大语言模型的调优范式MAVIS,专门针对数学视觉问题解决能力的提升。MAVIS通过利用大型语言模型和代码能力,合成了大量的抽象图像和视觉推理指令,以提高模型在数学问题上的表现。 GitHub:https://github.com/ZrrSky... 阅读全文

    优惠 Q-GaLore:提高训练大语言模型时的内存效率

  • Q-GaLore:提高训练大语言模型时的内存效率
    AI
  • 德克萨斯大学奥斯汀分校、 萨里大学、 牛津大学、加州理工学院和Meta AI的研究人员推出新方法Q-GaLore,它用于提高训练大语言模型(LLMs)时的内存效率。大型语言模型是一类拥有数十亿参数的人工智能模型,它们在各种任务中表现出色,但训练这些模型需要巨大的内存和计算资源。实验结果表明,Q-GaLore在预训练和微... 阅读全文

    优惠 Multimodal Self-Instruct:多模态大语言模型在理解和推理抽象图像方面的能力

  • Multimodal Self-Instruct:多模态大语言模型在理解和推理抽象图像方面的能力
    AI
  • 浙江大学的研究人员发布论文,论文的主题是关于如何提高大型多模态模型(LMMs)在理解和推理抽象图像方面的能力。多模态模型是一种人工智能技术,它能够处理和理解多种类型的数据,如文本、图像等。然而,尽管这些模型在处理自然场景照片和人像方面已经相当擅长,它们在处理图表、地图或布局等抽象图像时仍然存在困难。这些抽象图像通常由简... 阅读全文

    优惠 DownloadYoutubeSubtitles:免费、快速的在线YouTube视频字幕下载工具

  • DownloadYoutubeSubtitles:免费、快速的在线YouTube视频字幕下载工具
    工具
  • DownloadYoutubeSubtitles 是一款便捷的免费工具,专为下载 YouTube 视频字幕而设计。它支持将字幕保存为 .SRT、.VTT 或 .TXT 格式,操作简单快捷,无需安装任何额外软件。 主要特点: 多格式支持:下载字幕为 .SRT、.VTT 或 .TXT 格式。 易于使用:无论使用手机、平板还... 阅读全文

    优惠 智谱AI推出新型视频理解模型CogVLM2-Video:更准确地理解和回答与视频内容相关的问题

  • 智谱AI推出新型视频理解模型CogVLM2-Video:更准确地理解和回答与视频内容相关的问题
    AI
  • 智谱AI推出一种新型视频理解模型——CogVLM2-Video。该模型针对现有技术中的一些限制进行了改进,旨在更准确地理解和回答与视频内容相关的问题。CogVLM2-Video模型结合了新生成的数据集和现有的开放领域问答数据。该模型引入了多帧视频图像和时间戳作为编码器输入,通过这种方式,模型能够更好地理解视频内容及其时... 阅读全文

    优惠 动画图标集Unicorn icons:超过 100 个精致动画图标,提升操作界面的互动性

  • 动画图标集Unicorn icons:超过 100 个精致动画图标,提升操作界面的互动性
    工具
  • Unicorn icons 收录了100多个设计简洁、活泼有趣的动画图标。这些图标不仅外观吸引人,更具备强大的自定义功能,包括颜色、线条宽度、背景颜色和比例等,适用于网络服务和软件开发,能够显著提升用户界面的互动性和体验。Unicorn icons 提供的所有图标均可免费用于个人和商业项目,使用时请按照要求标示图标出处... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?