优惠大规模文本到视频生成数据集VIDGEN-1M：为了提升文本到视频模型的训练效果而特别设计的，它通过精细的筛选和标注过程，提供了高质量的视频和详细的文本描述

AI

推荐人：暴走AI 标签：VIDGEN-1M AI

9个月前 (08-07)AI

复旦大学和上海人工智能科学研究院的研究人员推出大规模文本到视频生成数据集VIDGEN-1M，这个数据集是为了提升文本到视频模型的训练效果而特别设计的，它通过精细的筛选和标注过程，提供了高质量的视频和详细的文本描述。例如，你想要制作一个关于海滩日落的视频，你可以给模型一个文本描述，比如“一个男人戴着红帽子，穿着灰色衬衫站... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开源框架RAG Foundry：专门用于增强大语言模型，特别是针对检索增强型生成（RAG）的应用场景

AI

推荐人：暴走AI 标签：RAG Foundry AI

9个月前 (08-07)AI

英特尔实验室推出开源框架RAG Foundry，它专门用于增强大语言模型（LLMs），特别是针对检索增强型生成（Retrieval-Augmented Generation，简称RAG）的应用场景。简单来说，RAG Foundry是一个多功能工具箱，它可以帮助研究者和开发者通过整合外部信息源来提升语言模型在特定任务上的... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 MeshAnything V2系统：能够自动生成与给定形状对齐的艺术家创造的网格的模型

AI

推荐人：暴走AI 标签：MeshAnything V2 AI

9个月前 (08-07)AI

洋理工大学、清华大学、伦敦帝国理工学院和西湖大学的研究人员推出MeshAnything V2系统，它是一个能够自动生成与给定形状对齐的艺术家创造的网格（Artist-Created Meshes，简称AM）的模型。简单来说，MeshAnything V2就像一个聪明的3D设计师，可以根据你提供的形状或者描述，自动设计出... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Midjourney「样式参考」功能新助手 —— Midjourney风格代码库 SrefHunter

工具

推荐人：暴走AI 标签：Midjourney SrefHunter 工具

9个月前 (08-06)工具

Midjourney 于今年初推出了全新的“样式参考（Style References）”功能，该功能允许用户通过指定一个或多个图像并使用–sref风格代码来生成具有相同风格但内容不同的新图片。虽然互联网上有不少国外用户分享的示例，但这些资源较为分散，不易查找。为此，特此介绍一个名为“SrefHunter”的网站。该... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠评估基准MuChoMusic：专门用来测试多模态音频-语言模型在音乐理解方面的能力

AI

推荐人：暴走AI 标签：MuChoMusic AI

9个月前 (08-05)AI

庞贝法布拉大学、伦敦玛丽女王大学和环球音乐集团的研究人员推出评估基准MuChoMusic，它专门用来测试多模态音频-语言模型在音乐理解方面的能力。这些模型可以同时处理音频和语言信息，对于音乐领域的理解和应用具有巨大的潜力。简单来说，MuChoMusic就像一个针对音乐理解智能的“考试”，它可以评估这些智能系统是否能够准... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 TexGen：用于3D纹理生成的系统，能够根据文本描述自动创建出相应的3D纹理

AI

推荐人：暴走AI 标签：TexGen AI

9个月前 (08-05)AI

加拿大阿尔伯塔大学、加拿大多伦多大学和华为诺亚方舟实验室的研究人员推出新技术TexGen，它是一种用于3D纹理生成的系统，能够根据文本描述自动创建出相应的3D纹理。想象一下，如果你是一名游戏设计师或者电影特效师，想要给一个3D模型穿上“衣服”，但不想手动一点点去画，TexGen就能帮你实现这个愿望。项目主页：http... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型自监督预训练框架POA：通过一次预训练过程，生成多种大小的模型，以适应不同的计算和存储需求

AI

推荐人：暴走AI 标签：POA AI

9个月前 (08-05)AI

蚂蚁集团推出一种名为POA（Pre-training Once for All）的新型自监督预训练框架。POA的核心思想是通过一次预训练过程，生成多种大小的模型，以适应不同的计算和存储需求。这类似于我们在一个大型购物中心购物，而不是去多个小商店，POA让我们通过一次“购物”（预训练）得到所有尺寸的“衣服”（模型），以适... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠医学图像分割模型Medical SAM 2：基于SAM 2框架构建，能够处理二维（2D）和三维（3D）医学图像分割任务

AI

推荐人：暴走AI 标签：Medical SAM 2 AI

9个月前 (08-05)AI

牛津大学的研究人员推出先进医学图像分割模型Medical SAM 2（简称MedSAM-2），MedSAM-2基于SAM 2框架构建，能够处理二维（2D）和三维（3D）医学图像分割任务。这个模型的核心思想是将医学图像当作视频来处理，从而不仅适用于3D图像，还开启了一种新的“一次提示分割”（One-prompt Segm... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 FiT3D：一种提升2D图像特征表示的方法，特别强调了通过3D意识的微调来增强这些特征

AI

推荐人：暴走AI 标签：FiT3D AI

9个月前 (08-04)AI

苏黎世联邦理工学院、马克斯普朗克信息学研究所和谷歌的研究人员推出一种提升2D图像特征表示的方法，特别强调了通过3D意识的微调（3D-aware fine-tuning）来增强这些特征。这种方法的核心思想是，通过在3D空间中对2D图像特征进行处理，可以让模型更好地理解和表达物体和场景的结构，从而提高在各种下游任务中的表现... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 ExAvatar：可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身

AI

推荐人：暴走AI 标签：ExAvatar AI

9个月前 (08-04)AI

DGIST 和Meta的研究人员推出ExAvatar，它可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身（3D avatar）。ExAvatar不仅能够模拟人体的运动，还能模拟面部表情和手部动作，这些都是人们表达情感和与世界互动的重要方式。例如，你录制了一段自己跳舞的视频，使用ExAvatar技术，可以从这段... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开放词汇的视听语义分割OV-AVSS：在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过

AI

推荐人：暴走AI 标签：OV-AVSS AI

9个月前 (08-04)AI

新型视听语义分割任务，称为开放词汇的视听语义分割（Open-Vocabulary Audio-Visual Semantic Segmentation，简称OV-AVSS）。这项技术的目标是在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过。例如，你在观看一个包含多种乐器演奏的音乐会视频，即使训... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠谷歌推出内容审核系统ShieldGemma：基于大语言模型构建的，专门用于检测和过滤不安全内容

AI

推荐人：暴走AI 标签：ShieldGemma 谷歌 AI

9个月前 (08-04)AI

谷歌推出内容审核系统ShieldGemma，它是基于大语言模型（LLMs）构建的，专门用于检测和过滤不安全内容。这个系统就像是网络世界的保安，能够辨别出不当的言语或行为，保护用户免受有害信息的影响。例如，有一个在线论坛，用户可能会发布包含仇恨言论或不当内容的帖子。使用ShieldGemma，系统可以自动检测这些帖子，并... 阅读全文

直达链接好 0 不好 0 已关闭评论