AI绘画

优惠 评估平台K-Sort Arena:专门用来测试和比较生成模型的性能

  • 评估平台K-Sort Arena:专门用来测试和比较生成模型的性能
    AI
  • 中国科学院自动化研究所和加州大学伯克利分校的研究人员推出评估平台K-Sort Arena,它专门用来测试和比较生成模型的性能。你可以把生成模型想象成一位艺术家,它可以根据给定的文字描述创作出图片或视频。但就像评价艺术品一样,我们需要一种方法来评估这些艺术家的作品质量,这就是K-Sort Arena发挥作用的地方。 项目... 阅读全文

    优惠 AI生成图像的水印技术的脆弱性,特别是它们在面对视觉改写攻击时的鲁棒性

  • AI生成图像的水印技术的脆弱性,特别是它们在面对视觉改写攻击时的鲁棒性
    AI
  • 这篇论文探讨了人工智能生成图像的水印技术的脆弱性,特别是它们在面对视觉改写攻击时的鲁棒性。随着文本到图像生成系统的快速发展,例如Stable Diffusion、Midjourney、Imagen和DALL-E等模型,人们对其可能被滥用的担忧也在增加。为了应对这一问题,一些公司如Meta和Google加强了在AI生成图... 阅读全文

    优惠 JPEG-LM:将大语言模型应用于图像和视频生成领域,通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频

  • JPEG-LM:将大语言模型应用于图像和视频生成领域,通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频
    AI
  • 华盛顿大学和Meta的研究人员发布论文,论文的主题是探讨如何将大语言模型(LLMs)应用于图像和视频生成领域,提出了一种新颖的方法,即通过使用标准的编解码器(如JPEG和AVC/H.264)来表示和生成图像与视频。这种方法与传统的基于像素值或向量量化的方法不同,它直接处理压缩文件字节,从而简化了视觉数据的离散化过程。例... 阅读全文

    优惠 sprite-decompose:一种快速从动画图形中分解精灵(sprites)的方法

  • sprite-decompose:一种快速从动画图形中分解精灵(sprites)的方法
    AI
  • 这篇论文的主题是关于一种快速从动画图形中分解精灵(sprites)的方法。精灵在这里指的是构成动画视频的基本元素或图层,比如在社交媒体帖子或广告中常见的动画元素。论文还构建了一个新的数据集Crello Animation,用于评估动画图形分解的质量,并定义了基准指标来衡量分解精灵的质量。实验表明,这种方法在质量和效率的... 阅读全文

    优惠 大规模数据集和基准测试框架Openstory++:专注于实例感知的开放领域视觉叙事(Visual Storytelling)

  • 大规模数据集和基准测试框架Openstory++:专注于实例感知的开放领域视觉叙事(Visual Storytelling)
    AI
  • 华南理工大学、西湖大学、OPPO美国研究中心、中国科学院自动化研究所基础模型研究中心和阿卜杜拉国王科技大学的研究人员推出大规模数据集和基准测试框架Openstory++,它专注于实例感知的开放领域视觉叙事(Visual Storytelling)。简单来说,Openstory++旨在训练和评估人工智能模型,使其能够根据... 阅读全文

    优惠 新型数据集和对比学习合成方法Img-Diff:专注于为多模态大语言模型提升细粒度图像识别能力

  • 新型数据集和对比学习合成方法Img-Diff:专注于为多模态大语言模型提升细粒度图像识别能力
    AI
  • 阿里巴巴和中山大学的研究人员推出新型数据集和对比学习合成方法Img-Diff,它专注于为多模态大语言模型(MLLMs)提升细粒度图像识别能力。这个方法通过分析相似图像之间的物体差异,挑战模型去识别匹配和不同的组成部分。例如,你有两张看起来非常相似的图片,但它们之间有一些细微的差别,比如一张图片中的物体被替换了。Img-... 阅读全文

    优惠 医学图像分割模型Medical SAM 2:基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务

  • 医学图像分割模型Medical SAM 2:基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务
    AI
  • 牛津大学的研究人员推出先进医学图像分割模型Medical SAM 2(简称MedSAM-2),MedSAM-2基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务。这个模型的核心思想是将医学图像当作视频来处理,从而不仅适用于3D图像,还开启了一种新的“一次提示分割”(One-prompt Segm... 阅读全文

    优惠 Bridging the Gap:将用手机单目拍摄的低分辨率纹理图转换为具有工作室级光照效果的高分辨率纹理图,进而用于创建高质量的3D头像

  • Bridging the Gap:将用手机单目拍摄的低分辨率纹理图转换为具有工作室级光照效果的高分辨率纹理图,进而用于创建高质量的3D头像
    AI
  • Captions Research、Meta Reality Labs和石溪大学的研究人员推出新技术Bridging the Gap,它能够将用手机单目拍摄的低分辨率纹理图转换为具有工作室级光照效果的高分辨率纹理图,进而用于创建高质量的3D头像。例如,你想在虚拟现实游戏中创建一个与自己相似的角色。使用这项技术,你只需用... 阅读全文

    优惠 新型神经网络结构MoNE:用于提高视觉处理任务的效率,尤其是在处理图像和视频时

  • 新型神经网络结构MoNE:用于提高视觉处理任务的效率,尤其是在处理图像和视频时
    AI
  • Google DeepMind和华盛顿大学的研究人员推出新型神经网络结构“Mixture of Nested Experts”(MoNE),它主要用于提高视觉处理任务的效率,尤其是在处理图像和视频时。MoNE的核心思想是,不是所有视觉信息都需要同等强度的计算处理,通过智能地分配计算资源,可以在保持准确性的同时减少计算量... 阅读全文

    优惠 BetterDepth:用来提升单目深度估计的性能

  • BetterDepth:用来提升单目深度估计的性能
    AI
  • 苏黎世联邦理工学院和迪士尼搜索研究部门的研究人员推出BetterDepth,它是用来提升单目深度估计(Monocular Depth Estimation, MDE)的性能。单目深度估计是一种计算机视觉任务,它的目标是通过分析一张图片来猜测物体距离相机的远近,这有点像我们人眼观察世界时,能够感知物体的深度和距离。 例如... 阅读全文

    优惠 基准测试Visual Haystacks:模拟了现实世界的场景,要求模型不仅要找到包含答案的图片,还要利用视觉内容进行推理来回答具体问题

  • 基准测试Visual Haystacks:模拟了现实世界的场景,要求模型不仅要找到包含答案的图片,还要利用视觉内容进行推理来回答具体问题
    AI
  • 加州大学伯克利分校的研究人员发布论文,论文的主题是关于如何让计算机更好地回答关于多张图片集合的问题,这在现实世界中非常有用,比如在翻看大量照片、网上搜索特定信息,或者通过卫星图像监控环境变化时。我们可以把这个问题想象成在一堆干草中找到一根针,但更难,因为需要在很多堆干草中找到答案。 论文还提到了他们创建的Visual ... 阅读全文

    优惠 DataDream:通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集

  • DataDream:通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集
    AI
  • DataDream是一个框架,它通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集。这在图像分类任务中尤其有用,因为有时候我们手头只有很少的样本,但需要训练一个能够识别多种类别的模型。例如,你是一位艺术家,但只有几幅画作为参考。你希望能够创作出更多风格相似、细节丰富的画作... 阅读全文