推荐类别

栏目分类

优惠 开源框架RAG Foundry:专门用于增强大语言模型,特别是针对检索增强型生成(RAG)的应用场景

  • 开源框架RAG Foundry:专门用于增强大语言模型,特别是针对检索增强型生成(RAG)的应用场景
    AI
  • 英特尔实验室推出开源框架RAG Foundry,它专门用于增强大语言模型(LLMs),特别是针对检索增强型生成(Retrieval-Augmented Generation,简称RAG)的应用场景。简单来说,RAG Foundry是一个多功能工具箱,它可以帮助研究者和开发者通过整合外部信息源来提升语言模型在特定任务上的... 阅读全文

    优惠 MeshAnything V2系统:能够自动生成与给定形状对齐的艺术家创造的网格的模型

  • MeshAnything V2系统:能够自动生成与给定形状对齐的艺术家创造的网格的模型
    AI
  • 洋理工大学、清华大学、伦敦帝国理工学院和西湖大学的研究人员推出MeshAnything V2系统,它是一个能够自动生成与给定形状对齐的艺术家创造的网格(Artist-Created Meshes,简称AM)的模型。简单来说,MeshAnything V2就像一个聪明的3D设计师,可以根据你提供的形状或者描述,自动设计出... 阅读全文

    优惠 Midjourney「样式参考」功能新助手 —— Midjourney风格代码库 SrefHunter

  • Midjourney「样式参考」功能新助手 —— Midjourney风格代码库 SrefHunter
    工具
  • Midjourney 于今年初推出了全新的“样式参考(Style References)”功能,该功能允许用户通过指定一个或多个图像并使用–sref风格代码来生成具有相同风格但内容不同的新图片。虽然互联网上有不少国外用户分享的示例,但这些资源较为分散,不易查找。 为此,特此介绍一个名为“SrefHunter”的网站。该... 阅读全文

    优惠 评估基准MuChoMusic:专门用来测试多模态音频-语言模型在音乐理解方面的能力

  • 评估基准MuChoMusic:专门用来测试多模态音频-语言模型在音乐理解方面的能力
    AI
  • 庞贝法布拉大学、伦敦玛丽女王大学和环球音乐集团的研究人员推出评估基准MuChoMusic,它专门用来测试多模态音频-语言模型在音乐理解方面的能力。这些模型可以同时处理音频和语言信息,对于音乐领域的理解和应用具有巨大的潜力。简单来说,MuChoMusic就像一个针对音乐理解智能的“考试”,它可以评估这些智能系统是否能够准... 阅读全文

    优惠 TexGen:用于3D纹理生成的系统,能够根据文本描述自动创建出相应的3D纹理

  • TexGen:用于3D纹理生成的系统,能够根据文本描述自动创建出相应的3D纹理
    AI
  • 加拿大阿尔伯塔大学、加拿大多伦多大学和华为诺亚方舟实验室的研究人员推出新技术TexGen,它是一种用于3D纹理生成的系统,能够根据文本描述自动创建出相应的3D纹理。想象一下,如果你是一名游戏设计师或者电影特效师,想要给一个3D模型穿上“衣服”,但不想手动一点点去画,TexGen就能帮你实现这个愿望。 项目主页:http... 阅读全文

    优惠 新型自监督预训练框架POA:通过一次预训练过程,生成多种大小的模型,以适应不同的计算和存储需求

  • 新型自监督预训练框架POA:通过一次预训练过程,生成多种大小的模型,以适应不同的计算和存储需求
    AI
  • 蚂蚁集团推出一种名为POA(Pre-training Once for All)的新型自监督预训练框架。POA的核心思想是通过一次预训练过程,生成多种大小的模型,以适应不同的计算和存储需求。这类似于我们在一个大型购物中心购物,而不是去多个小商店,POA让我们通过一次“购物”(预训练)得到所有尺寸的“衣服”(模型),以适... 阅读全文

    优惠 医学图像分割模型Medical SAM 2:基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务

  • 医学图像分割模型Medical SAM 2:基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务
    AI
  • 牛津大学的研究人员推出先进医学图像分割模型Medical SAM 2(简称MedSAM-2),MedSAM-2基于SAM 2框架构建,能够处理二维(2D)和三维(3D)医学图像分割任务。这个模型的核心思想是将医学图像当作视频来处理,从而不仅适用于3D图像,还开启了一种新的“一次提示分割”(One-prompt Segm... 阅读全文

    优惠 FiT3D:一种提升2D图像特征表示的方法,特别强调了通过3D意识的微调来增强这些特征

  • FiT3D:一种提升2D图像特征表示的方法,特别强调了通过3D意识的微调来增强这些特征
    AI
  • 苏黎世联邦理工学院、马克斯普朗克信息学研究所和谷歌的研究人员推出一种提升2D图像特征表示的方法,特别强调了通过3D意识的微调(3D-aware fine-tuning)来增强这些特征。这种方法的核心思想是,通过在3D空间中对2D图像特征进行处理,可以让模型更好地理解和表达物体和场景的结构,从而提高在各种下游任务中的表现... 阅读全文

    优惠 ExAvatar:可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身

  • ExAvatar:可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身
    AI
  • DGIST 和Meta的研究人员推出ExAvatar,它可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身(3D avatar)。ExAvatar不仅能够模拟人体的运动,还能模拟面部表情和手部动作,这些都是人们表达情感和与世界互动的重要方式。例如,你录制了一段自己跳舞的视频,使用ExAvatar技术,可以从这段... 阅读全文

    优惠 开放词汇的视听语义分割OV-AVSS:在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过

  • 开放词汇的视听语义分割OV-AVSS:在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过
    AI
  • 新型视听语义分割任务,称为开放词汇的视听语义分割(Open-Vocabulary Audio-Visual Semantic Segmentation,简称OV-AVSS)。这项技术的目标是在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过。例如,你在观看一个包含多种乐器演奏的音乐会视频,即使训... 阅读全文

    优惠 谷歌推出内容审核系统ShieldGemma:基于大语言模型构建的,专门用于检测和过滤不安全内容

  • 谷歌推出内容审核系统ShieldGemma:基于大语言模型构建的,专门用于检测和过滤不安全内容
    AI
  • 谷歌推出内容审核系统ShieldGemma,它是基于大语言模型(LLMs)构建的,专门用于检测和过滤不安全内容。这个系统就像是网络世界的保安,能够辨别出不当的言语或行为,保护用户免受有害信息的影响。例如,有一个在线论坛,用户可能会发布包含仇恨言论或不当内容的帖子。使用ShieldGemma,系统可以自动检测这些帖子,并... 阅读全文

    优惠 高质量、类人同声传译系统CLASI:在演讲者讲话的同时,系统能够即时地提供翻译,让听众能够理解演讲内容

  • 高质量、类人同声传译系统CLASI:在演讲者讲话的同时,系统能够即时地提供翻译,让听众能够理解演讲内容
    AI
  • 字节跳动研究院跨语言代理团队推出高质量、类人同声传译系统CLASI, CLASI的主要功能是同声传译,即在演讲者讲话的同时,系统能够即时地提供翻译,让听众能够理解演讲内容。例如,你正在观看一个英文的科技产品发布会,但你的母语是中文。演讲者介绍了一款新的智能手机,使用了大量专业术语,如"Ising model"(伊辛模型... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?