推荐类别

栏目分类

优惠 新型自监督预训练框架POA:通过一次预训练过程,生成多种大小的模型,以适应不同的计算和存储需求

  • 新型自监督预训练框架POA:通过一次预训练过程,生成多种大小的模型,以适应不同的计算和存储需求
    AI
  • 蚂蚁集团推出一种名为POA(Pre-training Once for All)的新型自监督预训练框架。POA的核心思想是通过一次预训练过程,生成多种大小的模型,以适应不同的计算和存储需求。这类似于我们在一个大型购物中心购物,而不是去多个小商店,POA让我们通过一次“购物”(预训练)得到所有尺寸的“衣服”(模型),以适... 阅读全文

    优惠 医学图像分割模型Medical SAM 2:基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务

  • 医学图像分割模型Medical SAM 2:基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务
    AI
  • 牛津大学的研究人员推出先进医学图像分割模型Medical SAM 2(简称MedSAM-2),MedSAM-2基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务。这个模型的核心思想是将医学图像当作视频来处理,从而不仅适用于3D图像,还开启了一种新的“一次提示分割”(One-prompt Segm... 阅读全文

    优惠 FiT3D:一种提升2D图像特征表示的方法,特别强调了通过3D意识的微调来增强这些特征

  • FiT3D:一种提升2D图像特征表示的方法,特别强调了通过3D意识的微调来增强这些特征
    AI
  • 苏黎世联邦理工学院、马克斯普朗克信息学研究所和谷歌的研究人员推出一种提升2D图像特征表示的方法,特别强调了通过3D意识的微调(3D-aware fine-tuning)来增强这些特征。这种方法的核心思想是,通过在3D空间中对2D图像特征进行处理,可以让模型更好地理解和表达物体和场景的结构,从而提高在各种下游任务中的表现... 阅读全文

    优惠 ExAvatar:可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身

  • ExAvatar:可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身
    AI
  • DGIST 和Meta的研究人员推出ExAvatar,它可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身(3D avatar)。ExAvatar不仅能够模拟人体的运动,还能模拟面部表情和手部动作,这些都是人们表达情感和与世界互动的重要方式。例如,你录制了一段自己跳舞的视频,使用ExAvatar技术,可以从这段... 阅读全文

    优惠 开放词汇的视听语义分割OV-AVSS:在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过

  • 开放词汇的视听语义分割OV-AVSS:在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过
    AI
  • 新型视听语义分割任务,称为开放词汇的视听语义分割(Open-Vocabulary Audio-Visual Semantic Segmentation,简称OV-AVSS)。这项技术的目标是在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过。例如,你在观看一个包含多种乐器演奏的音乐会视频,即使训... 阅读全文

    优惠 谷歌推出内容审核系统ShieldGemma:基于大语言模型构建的,专门用于检测和过滤不安全内容

  • 谷歌推出内容审核系统ShieldGemma:基于大语言模型构建的,专门用于检测和过滤不安全内容
    AI
  • 谷歌推出内容审核系统ShieldGemma,它是基于大语言模型(LLMs)构建的,专门用于检测和过滤不安全内容。这个系统就像是网络世界的保安,能够辨别出不当的言语或行为,保护用户免受有害信息的影响。例如,有一个在线论坛,用户可能会发布包含仇恨言论或不当内容的帖子。使用ShieldGemma,系统可以自动检测这些帖子,并... 阅读全文

    优惠 高质量、类人同声传译系统CLASI:在演讲者讲话的同时,系统能够即时地提供翻译,让听众能够理解演讲内容

  • 高质量、类人同声传译系统CLASI:在演讲者讲话的同时,系统能够即时地提供翻译,让听众能够理解演讲内容
    AI
  • 字节跳动研究院跨语言代理团队推出高质量、类人同声传译系统CLASI, CLASI的主要功能是同声传译,即在演讲者讲话的同时,系统能够即时地提供翻译,让听众能够理解演讲内容。例如,你正在观看一个英文的科技产品发布会,但你的母语是中文。演讲者介绍了一款新的智能手机,使用了大量专业术语,如"Ising model"(伊辛模型... 阅读全文

    优惠 Reenact Anything:实现一种语义视频运动转移的功能,可以让一张静态图片中的对象动起来,模仿另一个视频中的运动

  • Reenact Anything:实现一种语义视频运动转移的功能,可以让一张静态图片中的对象动起来,模仿另一个视频中的运动
    AI
  • 瑞士苏黎世联邦理工学院和迪士尼研究工作室的研究人员推出Reenact Anything,它能够实现一种语义视频运动转移的功能。简单来说,这项技术可以让一张静态图片中的对象动起来,模仿另一个视频中的运动。这不是简单的模仿动作,而是在保持原有图片外观和布局的同时,让图片中的对象按照视频里的动作进行“表演”。 例如,你有一张... 阅读全文

    优惠 通过对比性微调(contrastive fine-tuning)来提升小型语言模型的文本嵌入(text embeddings)质量

  • 通过对比性微调(contrastive fine-tuning)来提升小型语言模型的文本嵌入(text embeddings)质量
    AI
  • 清华大学计算机科学与技术系的研究人员发布论文,论文的主题是探讨如何通过对比性微调(contrastive fine-tuning)来提升小型语言模型的文本嵌入(text embeddings)质量。文本嵌入是一种将文本转换为向量表示的技术,这些向量能够捕捉文本的语义信息,使得机器能够更好地理解自然语言。 GitHub:... 阅读全文

    优惠 Rotato Video File Compressor:高效视频压缩新选择,90%压缩率不失真

  • Rotato Video File Compressor:高效视频压缩新选择,90%压缩率不失真
    工具
  • Rotato 是一家专注于模型图像及定制化 3D 模型制作的公司,由前 Google 员工创办。其特色在于能在几分钟内快速创建 3D 模型动画。此外,Rotato 还提供了一系列免费工具,包括视频透明度测试器、视频转换器以及一款高效的视频压缩器。 Rotato 视频压缩器特点 在线压缩:无需下载或安装任何软件。 高效压... 阅读全文

    优惠 开源跨平台剪切板管理工具EcoPaste

  • 开源跨平台剪切板管理工具EcoPaste
    工具
  • EcoPaste 是一个开源的跨平台剪切板管理工具,旨在帮助用户管理和记录剪切板历史,以便于快速访问和粘贴之前复制过的内容。该项目由独立开发者 ayangweb 在 GitHub 上维护,并且提供了 Windows 和 macOS 两个平台的版本。 功能特点 EcoPaste 的主要功能包括但不限于以下几点: 多平台适... 阅读全文

    优惠 免费无版权限视频素材网站OrangeHD

  • 免费无版权限视频素材网站OrangeHD
    工具
  • OrangeHD 是一个提供免费、无版税视频素材的国外网站,收录了各种主题的视频,如飞机、动植物、船舶、圣诞节、城市、工程、军事、运动、自然、恐怖、慢动作、雪景、科技、延时摄影、玩具、旅游等。网站目前拥有近500个视频素材,用户无需注册即可快速预览和下载所需的视频。 特点: 丰富的主题分类:网站提供了分类、标签和搜索功... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?