AI

优惠 昆仑推出新型图像生成模型DiT-MoE

  • 昆仑推出新型图像生成模型DiT-MoE
    AI
  • 昆仑推出新型图像生成模型DiT-MoE,这个模型的全称是“Diffusion Transformers with Mixture of Experts”。简单来说,它是一种能够生成高质量图像的人工智能系统。它通过模拟一个逐步去噪和降噪的过程,将随机噪声转化为目标数据分布,从而生成图像。例如,你有一个超级聪明的机器人,它... 阅读全文

    优惠 NeedleBench框架:用来测试大语言模型处理长文本的能力

  • NeedleBench框架:用来测试大语言模型处理长文本的能力
    AI
  • 上海人工智能实验室和清华大学的研究人员推测NeedleBench框架,它专门用来测试大语言模型处理长文本的能力。这个框架通过设计一系列越来越具挑战性的任务,评估模型在处理多语言长文本时的检索和推理能力。这些任务涵盖了不同的文本长度和深度范围,允许在不同文本深度区域中策略性地插入关键数据点,以严格测试模型在多样化的上下文... 阅读全文

    优惠 阿里巴巴推出新型工具套件“Data-Juicer Sandbox”:促进多模态数据和生成模型的协同开发

  • 阿里巴巴推出新型工具套件“Data-Juicer Sandbox”:促进多模态数据和生成模型的协同开发
    AI
  • 阿里巴巴推出新型工具套件“Data-Juicer Sandbox”,它旨在促进多模态数据和生成模型的协同开发。多模态数据指的是包含文本、图像、视频和音频等多种类型的数据。生成模型则是指能够基于输入数据生成新内容的人工智能模型,例如根据文本描述生成图像或视频。 例如,你是一位厨师,需要准备一道复杂的菜肴,你需要各种食材(... 阅读全文

    优惠 阿里巴巴集团Qwen团队推出大型音频-语言模型Qwen2-Audio

  • 阿里巴巴集团Qwen团队推出大型音频-语言模型Qwen2-Audio
    AI
  • 阿里巴巴集团Qwen团队最新研发的大型音频-语言模型Qwen2-Audio。这个模型能够处理各种音频信号输入,并根据语音指令进行音频分析或直接文本回应。简单来说,Qwen2-Audio就像一个超级听力助手,不仅能听懂你说的话,还能根据你的声音指令做出反应。例如,你有一个智能助手,它不仅能听懂你说的话,还能分析你播放的音... 阅读全文

    优惠 Learning to Refuse: 保护大语言模型中的个人隐私数据

  • Learning to Refuse: 保护大语言模型中的个人隐私数据
    AI
  • 苏州大学计算机科学与技术学院人工智能研究所的研究人员发布论文,论文的主题是关于如何保护大语言模型(LLMs)中的个人隐私数据。随着AI技术的发展,大型语言模型在理解和生成自然语言方面表现出了惊人的能力,但同时也带来了隐私泄露的风险。这些模型可能会无意中记住训练数据中的个人信息,比如个人的名字、电子邮件地址、电话号码等敏... 阅读全文

    优惠 OmniNOCS:用于从二维图像中提取三维物体的姿态和形状

  • OmniNOCS:用于从二维图像中提取三维物体的姿态和形状
    AI
  • 佐治亚理工学院和谷歌的研究人员推出OmniNOCS,,它包含一个大规模的数据集和一个创新的模型,用于从二维图像中提取三维物体的姿态和形状。简单来说,OmniNOCS可以帮助计算机更准确地理解图像中的物体,知道它们是什么、它们的位置以及它们的方向。例如,你在开发一个自动驾驶系统,系统需要识别并理解周围车辆、行人和自行车的... 阅读全文

    优惠 提升个性化图像美学评估的规模化能力

  • 提升个性化图像美学评估的规模化能力
    AI
  • 韩国科学技术院发布论文,论文的主题是关于如何提升个性化图像美学评估的规模化能力。简单来说,就是教会计算机如何根据个人的喜好来评估一张图片是否美观。这项技术可以想象成一个能够理解每个人审美偏好的智能助手。例如,你是一名摄影师,你希望从你拍摄的照片中挑选出最具视觉冲击力的作品。你可以上传一些你认为美观的照片给这个系统,系统... 阅读全文

    优惠 WildGaussians:用于在各种环境条件下进行高质量的3D场景重建

  • WildGaussians:用于在各种环境条件下进行高质量的3D场景重建
    AI
  • 苏黎世联邦理工学院、布拉格 CTU的研究人员推出WildGaussians,它用于在各种环境条件下进行高质量的3D场景重建。这项技术特别擅长处理那些在野外捕获的数据,比如存在遮挡、动态物体和不同光照条件的场景。例如,你手上有一堆在不同时间、不同光照条件下拍摄的某个地标的照片,比如布拉格的查理大桥或者罗马的特雷维喷泉。现... 阅读全文

    优惠 新型视频帧插值方法GIMM:在这一系列照片之间生成更多的照片,让整个动作看起来更加平滑连贯

  • 新型视频帧插值方法GIMM:在这一系列照片之间生成更多的照片,让整个动作看起来更加平滑连贯
    AI
  • 南洋理工大学的研究人员推出新型视频帧插值方法GIMM(Generalizable Implicit Motion Modeling),视频帧插值是一种在两个已有视频帧之间生成中间帧的技术,它对于提高视频质量、创建新的视频视角以及视频压缩等应用至关重要。例如,你手里有一些照片,它们记录了一个人在做后空翻的整个过程,但是照... 阅读全文

    优惠 地图数据引擎Map It Anywhere (MIA):利用大规模的公共数据来增强从第一人称视角(FPV)图像预测鸟瞰图(BEV)地图

  • 地图数据引擎Map It Anywhere (MIA):利用大规模的公共数据来增强从第一人称视角(FPV)图像预测鸟瞰图(BEV)地图
    AI
  • 卡内基梅隆大学和布法罗大学的研究人员推出数据引擎Map It Anywhere (MIA) ,它能够利用大规模的公共数据来增强从第一人称视角(FPV)图像预测鸟瞰图(BEV)地图的能力。简单来说,MIA能够帮助我们从人们日常拍摄的街景照片中自动创建出用于导航的地图。 项目主页:https://mapitanywhere... 阅读全文

    优惠 新基准测试GTA:评估和提升大语言模型在现实世界场景中使用各种工具的能力

  • 新基准测试GTA:评估和提升大语言模型在现实世界场景中使用各种工具的能力
    AI
  • 上海交通大学和上海人工智能实验室的研究人员推出新基准测试GTA(General Tool Agents),它是为了评估和提升大语言模型(LLMs)在现实世界场景中使用各种工具的能力而设计的。GTA基准测试的主要挑战在于,现有的评估方法往往使用人工智能生成的查询、单一步骤任务、虚拟工具和仅限文本的交互,这些都不能有效地揭... 阅读全文

    优惠 新型多模态大语言模型DenseFusion-1M:通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力

  • 新型多模态大语言模型DenseFusion-1M:通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力
    AI
  • 北京大学、北京人工智能研究院和大连理工大学的研究人员推出一种新型多模态大型语言模型DenseFusion-1M,它通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力。这些模型能够理解图像中的多个对象、文本信息和空间关系,但它们的性能很大程度上受限于可用的高质量图像-文本数据集的质量。 GitHub:https:/... 阅读全文