优惠评估基准MuChoMusic：专门用来测试多模态音频-语言模型在音乐理解方面的能力

AI

推荐人：暴走AI 标签：MuChoMusic AI

2年前 (2024-08-05)AI

庞贝法布拉大学、伦敦玛丽女王大学和环球音乐集团的研究人员推出评估基准MuChoMusic，它专门用来测试多模态音频-语言模型在音乐理解方面的能力。这些模型可以同时处理音频和语言信息，对于音乐领域的理解和应用具有巨大的潜力。简单来说，MuChoMusic就像一个针对音乐理解智能的“考试”，它可以评估这些智能系统是否能够准... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 TexGen：用于3D纹理生成的系统，能够根据文本描述自动创建出相应的3D纹理

AI

推荐人：暴走AI 标签：TexGen AI

2年前 (2024-08-05)AI

加拿大阿尔伯塔大学、加拿大多伦多大学和华为诺亚方舟实验室的研究人员推出新技术TexGen，它是一种用于3D纹理生成的系统，能够根据文本描述自动创建出相应的3D纹理。想象一下，如果你是一名游戏设计师或者电影特效师，想要给一个3D模型穿上“衣服”，但不想手动一点点去画，TexGen就能帮你实现这个愿望。项目主页：http... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型自监督预训练框架POA：通过一次预训练过程，生成多种大小的模型，以适应不同的计算和存储需求

AI

推荐人：暴走AI 标签：POA AI

2年前 (2024-08-05)AI

蚂蚁集团推出一种名为POA（Pre-training Once for All）的新型自监督预训练框架。POA的核心思想是通过一次预训练过程，生成多种大小的模型，以适应不同的计算和存储需求。这类似于我们在一个大型购物中心购物，而不是去多个小商店，POA让我们通过一次“购物”（预训练）得到所有尺寸的“衣服”（模型），以适... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠医学图像分割模型Medical SAM 2：基于SAM 2框架构建，能够处理二维（2D）和三维（3D）医学图像分割任务

AI

推荐人：暴走AI 标签：Medical SAM 2 AI

2年前 (2024-08-05)AI

牛津大学的研究人员推出先进医学图像分割模型Medical SAM 2（简称MedSAM-2），MedSAM-2基于SAM 2框架构建，能够处理二维（2D）和三维（3D）医学图像分割任务。这个模型的核心思想是将医学图像当作视频来处理，从而不仅适用于3D图像，还开启了一种新的“一次提示分割”（One-prompt Segm... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 FiT3D：一种提升2D图像特征表示的方法，特别强调了通过3D意识的微调来增强这些特征

AI

推荐人：暴走AI 标签：FiT3D AI

2年前 (2024-08-04)AI

苏黎世联邦理工学院、马克斯普朗克信息学研究所和谷歌的研究人员推出一种提升2D图像特征表示的方法，特别强调了通过3D意识的微调（3D-aware fine-tuning）来增强这些特征。这种方法的核心思想是，通过在3D空间中对2D图像特征进行处理，可以让模型更好地理解和表达物体和场景的结构，从而提高在各种下游任务中的表现... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 ExAvatar：可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身

AI

推荐人：暴走AI 标签：ExAvatar AI

2年前 (2024-08-04)AI

DGIST 和Meta的研究人员推出ExAvatar，它可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身（3D avatar）。ExAvatar不仅能够模拟人体的运动，还能模拟面部表情和手部动作，这些都是人们表达情感和与世界互动的重要方式。例如，你录制了一段自己跳舞的视频，使用ExAvatar技术，可以从这段... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开放词汇的视听语义分割OV-AVSS：在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过

AI

推荐人：暴走AI 标签：OV-AVSS AI

2年前 (2024-08-04)AI

新型视听语义分割任务，称为开放词汇的视听语义分割（Open-Vocabulary Audio-Visual Semantic Segmentation，简称OV-AVSS）。这项技术的目标是在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过。例如，你在观看一个包含多种乐器演奏的音乐会视频，即使训... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠谷歌推出内容审核系统ShieldGemma：基于大语言模型构建的，专门用于检测和过滤不安全内容

AI

推荐人：暴走AI 标签：ShieldGemma 谷歌 AI

2年前 (2024-08-04)AI

谷歌推出内容审核系统ShieldGemma，它是基于大语言模型（LLMs）构建的，专门用于检测和过滤不安全内容。这个系统就像是网络世界的保安，能够辨别出不当的言语或行为，保护用户免受有害信息的影响。例如，有一个在线论坛，用户可能会发布包含仇恨言论或不当内容的帖子。使用ShieldGemma，系统可以自动检测这些帖子，并... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠高质量、类人同声传译系统CLASI：在演讲者讲话的同时，系统能够即时地提供翻译，让听众能够理解演讲内容

AI

推荐人：暴走AI 标签：CLASI AI

2年前 (2024-08-04)AI

字节跳动研究院跨语言代理团队推出高质量、类人同声传译系统CLASI， CLASI的主要功能是同声传译，即在演讲者讲话的同时，系统能够即时地提供翻译，让听众能够理解演讲内容。例如，你正在观看一个英文的科技产品发布会，但你的母语是中文。演讲者介绍了一款新的智能手机，使用了大量专业术语，如"Ising model"（伊辛模型... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Reenact Anything：实现一种语义视频运动转移的功能，可以让一张静态图片中的对象动起来，模仿另一个视频中的运动

AI

推荐人：暴走AI 标签：Reenact Anything AI

2年前 (2024-08-04)AI

瑞士苏黎世联邦理工学院和迪士尼研究工作室的研究人员推出Reenact Anything，它能够实现一种语义视频运动转移的功能。简单来说，这项技术可以让一张静态图片中的对象动起来，模仿另一个视频中的运动。这不是简单的模仿动作，而是在保持原有图片外观和布局的同时，让图片中的对象按照视频里的动作进行“表演”。例如，你有一张... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠通过对比性微调（contrastive fine-tuning）来提升小型语言模型的文本嵌入（text embeddings）质量

AI

推荐人：暴走AI 标签：文本嵌入 AI

2年前 (2024-08-04)AI

清华大学计算机科学与技术系的研究人员发布论文，论文的主题是探讨如何通过对比性微调（contrastive fine-tuning）来提升小型语言模型的文本嵌入（text embeddings）质量。文本嵌入是一种将文本转换为向量表示的技术，这些向量能够捕捉文本的语义信息，使得机器能够更好地理解自然语言。 GitHub：... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型音乐理解模型FUTGA：通过时间增强的生成增强技术，提升了对音乐细节的理解和描述能力

AI

推荐人：暴走AI 标签：FUTGA AI

2年前 (2024-07-31)AI

加州大学圣地亚哥分校和加州大学洛杉矶分校的研究人员推出新型音乐理解模型FUTGA，它通过时间增强的生成增强技术，提升了对音乐细节的理解和描述能力。这项技术对于音乐行业来说非常重要，因为它可以帮助自动生成音乐描述、改进音乐检索和生成等应用。例如，你正在制作一个视频，需要一段与视频主题相匹配的背景音乐。使用FUTGA，你可... 阅读全文

直达链接好 0 不好 0 已关闭评论