优惠 DataDream：通过少量的真实图像（即“少样本”或“few-shot”数据）来指导生成更真实、更多样化的训练数据集

AI

推荐人：暴走AI 标签：DataDream AI

2年前 (2024-07-17)AI

DataDream是一个框架，它通过少量的真实图像（即“少样本”或“few-shot”数据）来指导生成更真实、更多样化的训练数据集。这在图像分类任务中尤其有用，因为有时候我们手头只有很少的样本，但需要训练一个能够识别多种 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态智能代理基准测试Spider2-V：专注于自动化数据科学和工程工作流程

AI

推荐人：暴走AI 标签：Spider2-V AI

2年前 (2024-07-17)AI

香港大学、上海交通大学、Google Cloud AI 研究中心、Google Deepmind、Salesforce Research、耶鲁大学、Sea AI 实验室和滑铁卢大学的研究人员推出多模态智能代理基准测试Spider2-V，它专注于自动化数据科学和工程 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠视频占用模型（VOCs）：专为支持下游控制任务而设计，它们在紧凑的潜在空间中运行，避免了对单个像素进行预测的需要

AI

推荐人：暴走AI 标签：视频占用模型 AI

2年前 (2024-07-17)AI

阿尔伯塔大学、德克萨斯大学奥斯汀分校微软纽约研究院和加州大学伯克利分校的研究人员推出一种新型的视频预测模型，称为视频占用模型（Video Occupancy Models，简称VOCs）。这些模型专为支持下游控制任务而设计，它 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 SHERL：为资源受限的迁移学习场景提供一种高效且准确的解决方案

AI

推荐人：暴走AI 标签：SHERL AI

2年前 (2024-07-17)AI

大连理工大学、鲁汶大学、腾讯微信和香港科技大学的研究人员推出SHERL，它旨在为资源受限的迁移学习场景提供一种高效且准确的解决方案。SHERL的核心思想是将大型预训练模型适应到下游任务中，同时显著减少可训练参数 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新模型MaskVAT：根据无声视频生成与之匹配的音频

AI

推荐人：暴走AI 标签：MaskVAT AI

2年前 (2024-07-17)AI

杜比实验室和加泰罗尼亚理工大学的研究人员推出新模型MaskVAT（Masked Generative Video-to-Audio Transformers），它能够根据无声视频生成与之匹配的音频。简单来说，就是让计算机“看”一段没有声音的视频，然后“想 ...... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠 Make-An-Agent：能够生成通用策略网络的系统

AI

推荐人：暴走AI 标签：Make-An-Agent AI

2年前 (2024-07-17)AI

马里兰大学帕克分校、清华大学、加州大学圣地亚哥分校的研究人员推出创新方法Make-An-Agent，它是一个能够生成通用策略网络的系统。简单来说，就是通过观察一个智能体（比如机器人）的行为，这个系统能够自动生成控 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠虚拟仿真平台GRUtopia：推动和评估高级具身智能（Embodied AI）研究而设计

AI

推荐人：暴走AI 标签：GRUtopia AI

2年前 (2024-07-17)AI

上海人工智能实验室OpenRobotLab、浙江大学、上海交通大学、清华大学、南京大学、香港中文大学和西安电子科技大学的研究人员推出虚拟仿真平台GRUtopia，它是为了推动和评估高级具身智能（Embodied AI）研究而设计的 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 GoodBadGreedy：大语言模型在生成文本时的非确定性问题

AI

推荐人：暴走AI 标签：大语言模型 AI

2年前 (2024-07-17)AI

北京大学和艾伦人工智能研究所的研究人员发布论文，论文的主题是探讨大语言模型（LLMs）在生成文本时的非确定性问题。非确定性是指同样的输入在不同的生成配置下可能会产生显著不同的输出。论文的核心观点是，目前对 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开源工具包VLMEvalKit：用于评估大型多模态模型

AI

推荐人：暴走AI 标签：VLMEvalKit AI

2年前 (2024-07-17)AI

开源工具包VLMEvalKit，它用于评估大型多模态模型。这些模型能够处理并理解多种类型的数据，比如图像、文本、音频等。VLMEvalKit基于PyTorch框架，旨在为研究人员和开发者提供一个友好、全面的框架，以便他们评估现 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态联合表示模型OmniBind：能够处理包括3D、音频、图像和语言输入在内的多种数据类型

AI

推荐人：暴走AI 标签：OmniBind AI

2年前 (2024-07-17)AI

浙江大学和香港大学的研究人员推出OmniBind，这是一种大规模的多模态联合表示模型，能够处理包括3D、音频、图像和语言输入在内的多种数据类型。简单来说，OmniBind就像一个多语言的超级翻译器，但它不仅仅是翻译语 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Click-Gaussian：用于实时3D场景操作的交互式分割方法

AI

推荐人：暴走AI 标签：Click-Gaussian AI

2年前 (2024-07-17)AI

LG电子和首尔国立大学的研究人员推出Click-Gaussian，这是一种用于实时3D场景操作的交互式分割方法。简单来说，Click-Gaussian能够让用户通过单次点击就能在三维空间中选择和分割出他们想要的对象，无论是粗略的大致 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠谷歌推出大规模、开放式的多语种手语平行语料库YouTube-SL-25

AI

推荐人：暴走AI 标签：YouTube-SL-25 谷歌 AI

2年前 (2024-07-17)AI

谷歌推出YouTube-SL-25，这是一个大规模、开放式的多语种手语平行语料库。简单来说，它包含了超过25种不同手语的视频，这些视频从YouTube上收集而来，并且配有相应的字幕。这个项目的目标是改善手语与文本之间的翻译 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

优惠 DataDream：通过少量的真实图像（即“少样本”或“few-shot”数据）来指导生成更真实、更多样化的训练数据集

优惠多模态智能代理基准测试Spider2-V：专注于自动化数据科学和工程工作流程

优惠视频占用模型（VOCs）：专为支持下游控制任务而设计，它们在紧凑的潜在空间中运行，避免了对单个像素进行预测的需要

优惠 SHERL：为资源受限的迁移学习场景提供一种高效且准确的解决方案

优惠新模型MaskVAT：根据无声视频生成与之匹配的音频

优惠 Make-An-Agent：能够生成通用策略网络的系统

优惠虚拟仿真平台GRUtopia：推动和评估高级具身智能（Embodied AI）研究而设计

优惠 GoodBadGreedy：大语言模型在生成文本时的非确定性问题

优惠开源工具包VLMEvalKit：用于评估大型多模态模型

优惠多模态联合表示模型OmniBind：能够处理包括3D、音频、图像和语言输入在内的多种数据类型

优惠 Click-Gaussian：用于实时3D场景操作的交互式分割方法

优惠谷歌推出大规模、开放式的多语种手语平行语料库YouTube-SL-25