推荐类别

栏目分类

优惠 Splatfacto-W:用于从非约束性(即在野外拍摄的)照片集合中合成新视角图像的技术

  • Splatfacto-W:用于从非约束性(即在野外拍摄的)照片集合中合成新视角图像的技术
  • 加州大学伯克利分校和上海科技大学的研究人员推出Splatfacto-W,它是一种用于从非约束性(即在野外拍摄的)照片集合中合成新视角图像的技术。这种方法特别适用于处理那些因光照变化、临时遮挡物或场景不一致性而难以准确重建的场景。例如,你有一组在不同时间(比如早晨、中午和晚上)拍摄的同一景点的照片。这些照片可能会因为光照... 阅读全文

    优惠 音乐生成新方法musicgenstyle:通过音频输入来控制音乐的风格

  • 音乐生成新方法musicgenstyle:通过音频输入来控制音乐的风格
    AI
  • Meta、索邦大学、耶路撒冷希伯来大学 和Kyutai的研究人员发布论文,论文的主题是关于音乐生成的新方法,特别是如何通过音频输入来控制音乐的风格。例如,你有一个贝多芬的钢琴奏鸣曲的片段,你想让AI生成一首新的钢琴曲,听起来和贝多芬的风格相似。这篇论文介绍的方法可以帮助你实现这个目标。你只需要给AI提供这个贝多芬的片段... 阅读全文

    优惠 多模态大语言模型Goldfish:专门用来理解和处理非常长的视频内容

  • 多模态大语言模型Goldfish:专门用来理解和处理非常长的视频内容
    AI
  • 阿卜杜拉国王科技大学和瑞士人工智能实验室推出Goldfish,它专门用来理解和处理非常长的视频内容。你有一个好几个小时的视频,比如一部电影或电视剧,你想知道里面某个特定场景的细节,但是从头到尾看完实在太费时间了。Goldfish就是来帮你解决这个问题的。比如,你正在看《老友记》的一个片段,你想知道罗斯从菲比那里拿走了什... 阅读全文

    优惠 如何让大语言模型学会在适当的时候说“不”

  • 如何让大语言模型学会在适当的时候说“不”
    AI
  • 艾伦人工智能研究所、华盛顿大学微软研究院和Samaya AI的研究人员发布论文,论文的主题是关于如何让语言模型(也就是我们常说的聊天机器人或者智能助手)学会在适当的时候说“不”。这里的“不”并不是指简单地拒绝用户的请求,而是在一些特定的情境下,模型应该能够识别并避免执行那些不合适或者不安全的请求。 GitHub:htt... 阅读全文

    优惠 VD3D:让大型视频扩散变换器更好地控制3D摄像机的运动,从而在文本到视频生成的过程中实现更精细的控制

  • VD3D:让大型视频扩散变换器更好地控制3D摄像机的运动,从而在文本到视频生成的过程中实现更精细的控制
    AI
  • 多伦多大学、 Vector Institute 、Snap和SFU的研究人员推出新方法VD3D(Video Diffusion 3D),它可以让大型视频扩散变换器(Video Diffusion Transformers)更好地控制3D摄像机的运动,从而在文本到视频生成的过程中实现更精细的控制。例如,你有一个神奇的相机... 阅读全文

    优惠 LLMs新训练方法Patch-Level Training:用于提高大语言模型的训练效率

  • LLMs新训练方法Patch-Level Training:用于提高大语言模型的训练效率
    AI
  • 微信 AI 模式识别中心的研究人员推出一种新的训练方法,名为“Patch-Level Training”,用于提高大语言模型(LLMs)的训练效率。这种方法通过将多个词元(tokens)压缩成一个“补丁”(patch),从而减少序列长度,降低计算成本。例如,我们有一个句子 "The quick brown fox ju... 阅读全文

    优惠 Case2Code:训练和评估大语言模型进行归纳推理

  • Case2Code:训练和评估大语言模型进行归纳推理
    AI
  • 复旦大学计算机学院、上海人工智能实验室和香港中文大学的研究人员推出Case2Code,旨在训练和评估大语言模型(LLMs)进行归纳推理。归纳推理是一种认知过程,通过观察例子或序列变化来推断潜在规则。在编程领域,这意味着让计算机通过观察输入输出(I/O)转换来学习编写代码。比如,你有一个计算机程序,它可以接受一些输入并产... 阅读全文

    优惠 新框架E5-V:利用多模态大语言模型来实现通用的多模态嵌入

  • 新框架E5-V:利用多模态大语言模型来实现通用的多模态嵌入
    AI
  • 北京航空航天大学和微软的研究人员推出新框架E5-V,,它利用多模态大语言模型(MLLMs)来实现通用的多模态嵌入(embeddings)。简单来说,E5-V可以帮助计算机更好地理解和处理图片和文字信息。比如,你给计算机一张猫的图片和一句话“一只坐在垫子上的猫”。E5-V可以帮助计算机理解图片和文字之间的关系,然后将它们... 阅读全文

    优惠 评估框架LMMs-Eval:全面、低成本、无污染地评估大型多模态模型而设计

  • 评估框架LMMs-Eval:全面、低成本、无污染地评估大型多模态模型而设计
    AI
  • LMMs-Lab 团队 和南洋理工大学的研究人员推出评估框架LMMs-Eval,它是为了全面、低成本、无污染地评估大型多模态模型(LMMs)而设计的。想象一下,你有一个非常聪明的机器人助手,它可以看图片、读文字,甚至理解复杂的数学问题。但是,你怎么知道这个机器人有多聪明呢?这就需要一些测试来评估它的各项能力。LMMs-... 阅读全文

    优惠 大语言模型套件Spectra:经过了量化处理,以解决在大型语言模型推理过程中遇到的内存瓶颈问题

  • 大语言模型套件Spectra:经过了量化处理,以解决在大型语言模型推理过程中遇到的内存瓶颈问题
    AI
  • Nolano AI、蒙特利尔大学、印度理工学院 Kharagpur 分校、魁北克 AI 研究所和加州大学河滨分校的研究人员推出大语言模型(LLM)套件Spectra,这些模型经过了量化处理,以解决在大型语言模型推理过程中遇到的内存瓶颈问题。想象一下,你的电脑或手机在处理一些非常复杂的任务时,比如翻译语言或回答问题,可能... 阅读全文

    优惠 免费开源的安卓手机投屏+控制软件Escrcpy ,在电脑上控制安卓手机

  • 免费开源的安卓手机投屏+控制软件Escrcpy ,在电脑上控制安卓手机
    工具
  • Escrcpy 是一个开源项目,它允许用户通过图形界面显示和控制 Android 设备。该项目由 Electron 驱动,无需账户,无广告,完全免费开源。它支持多种操作系统,包括 Windows、macOS 和 Linux,提供了一种无线的方式将 Android 设备的屏幕实时镜像到电脑上。Escrcpy 的主要功能包... 阅读全文

    优惠 3D光照新技术RRM:在不同的光照条件下重新渲染3D场景

  • 3D光照新技术RRM:在不同的光照条件下重新渲染3D场景
    AI
  • 巴黎综合理工学院和Adob​​e 研究中心的研究人员推出新技术RRM,可以让我们在不同的光照条件下重新渲染3D场景。这在计算机图形学和虚拟现实中非常有用,因为它允许我们更真实地模拟和观察场景在不同光照条件下的外观。例如,你有一个3D模型的房间,里面有各种家具和装饰品。通常,当你在计算机中渲染这个场景时,你需要设定光照条... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?