人工智能

优惠 H2O.ai公司推出小型语言模型H2O-Danube3,可以在手机上运行

  • H2O.ai公司推出小型语言模型H2O-Danube3,可以在手机上运行
    AI
  • H2O-Danube3是由H2O.ai公司推出的一系列小型语言模型。这些模型包括H2O-Danube3-4B和H2O-Danube3-500M,分别在6万亿(T)和4万亿个词元上进行了训练。这些模型的设计理念是能够在现代智能手机等移动设备上高效运行,实现本地推理和快速处理能力。例如,你有一个智能手机应用,需要一个能够理... 阅读全文

    优惠 DataDream:通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集

  • DataDream:通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集
    AI
  • DataDream是一个框架,它通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集。这在图像分类任务中尤其有用,因为有时候我们手头只有很少的样本,但需要训练一个能够识别多种类别的模型。例如,你是一位艺术家,但只有几幅画作为参考。你希望能够创作出更多风格相似、细节丰富的画作... 阅读全文

    优惠 多模态智能代理基准测试Spider2-V:专注于自动化数据科学和工程工作流程

  • 多模态智能代理基准测试Spider2-V:专注于自动化数据科学和工程工作流程
    AI
  • 香港大学、上海交通大学、Google Cloud AI 研究中心、Google Deepmind、Salesforce Research、 耶鲁大学、Sea AI 实验室和滑铁卢大学的研究人员推出多模态智能代理基准测试Spider2-V,它专注于自动化数据科学和工程工作流程。随着视觉-语言模型(VLMs)在多模态理解和... 阅读全文

    优惠 视频占用模型(VOCs):专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要

  • 视频占用模型(VOCs):专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要
    AI
  • 阿尔伯塔大学、德克萨斯大学奥斯汀分校微软纽约研究院和加州大学伯克利分校的研究人员推出一种新型的视频预测模型,称为视频占用模型(Video Occupancy Models,简称VOCs)。这些模型专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要。实验分析,包括使用不同的表示空间(如... 阅读全文

    优惠 SHERL:为资源受限的迁移学习场景提供一种高效且准确的解决方案

  • SHERL:为资源受限的迁移学习场景提供一种高效且准确的解决方案
    AI
  • 大连理工大学、鲁汶大学、腾讯微信和香港科技大学的研究人员推出SHERL,它旨在为资源受限的迁移学习场景提供一种高效且准确的解决方案。SHERL的核心思想是将大型预训练模型适应到下游任务中,同时显著减少可训练参数并解决微调过程中的内存挑战。通过广泛的实验验证了SHERL在多个任务和不同架构上的有效性,展示了其在资源受限环... 阅读全文

    优惠 新模型MaskVAT:根据无声视频生成与之匹配的音频

  • 新模型MaskVAT:根据无声视频生成与之匹配的音频
    AI
  • 杜比实验室和加泰罗尼亚理工大学的研究人员推出新模型MaskVAT(Masked Generative Video-to-Audio Transformers),它能够根据无声视频生成与之匹配的音频。简单来说,就是让计算机“看”一段没有声音的视频,然后“想象”出视频中应有的声音,比如人的对话声、环境声等。在一些具体的实验... 阅读全文

    优惠 Make-An-Agent:能够生成通用策略网络的系统

  • Make-An-Agent:能够生成通用策略网络的系统
    AI
  • 马里兰大学帕克分校、清华大学、加州大学圣地亚哥分校的研究人员推出创新方法Make-An-Agent,它是一个能够生成通用策略网络的系统。简单来说,就是通过观察一个智能体(比如机器人)的行为,这个系统能够自动生成控制这个智能体的策略,就像我们通过一段文本描述就能生成图像一样。这种方法大大简化了机器人控制策略的开发过程,使... 阅读全文

    优惠 虚拟仿真平台GRUtopia:推动和评估高级具身智能(Embodied AI)研究而设计

  • 虚拟仿真平台GRUtopia:推动和评估高级具身智能(Embodied AI)研究而设计
    AI
  • 上海人工智能实验室OpenRobotLab、浙江大学、上海交通大学、清华大学、南京大学、香港中文大学和西安电子科技大学的研究人员推出虚拟仿真平台GRUtopia,它是为了推动和评估高级具身智能(Embodied AI)研究而设计的。具身智能,简单来说,就是让机器或机器人能够通过身体与环境互动,完成一些任务,比如导航、社... 阅读全文

    优惠 GoodBadGreedy:大语言模型在生成文本时的非确定性问题

  • GoodBadGreedy:大语言模型在生成文本时的非确定性问题
    AI
  • 北京大学和艾伦人工智能研究所的研究人员发布论文,论文的主题是探讨大语言模型(LLMs)在生成文本时的非确定性问题。非确定性是指同样的输入在不同的生成配置下可能会产生显著不同的输出。论文的核心观点是,目前对LLMs的评估往往忽视了这种非确定性,而更多地关注单一输出结果。 GitHub:https://github.com... 阅读全文

    优惠 开源工具包VLMEvalKit:用于评估大型多模态模型

  • 开源工具包VLMEvalKit:用于评估大型多模态模型
    AI
  • 开源工具包VLMEvalKit,它用于评估大型多模态模型。这些模型能够处理并理解多种类型的数据,比如图像、文本、音频等。VLMEvalKit基于PyTorch框架,旨在为研究人员和开发者提供一个友好、全面的框架,以便他们评估现有的多模态模型,并发布可复现的评估结果。例如,你是一名计算机视觉研究人员,你开发了一个能够识别... 阅读全文

    优惠 多模态联合表示模型OmniBind:能够处理包括3D、音频、图像和语言输入在内的多种数据类型

  • 多模态联合表示模型OmniBind:能够处理包括3D、音频、图像和语言输入在内的多种数据类型
    AI
  • 浙江大学和 香港大学的研究人员推出OmniBind,这是一种大规模的多模态联合表示模型,能够处理包括3D、音频、图像和语言输入在内的多种数据类型。简单来说,OmniBind就像一个多语言的超级翻译器,但它不仅仅是翻译语言,它还能理解和转换不同类型的数据,比如将文字描述转换成3D模型,或者根据声音找到对应的图像。例如,你... 阅读全文

    优惠 Click-Gaussian:用于实时3D场景操作的交互式分割方法

  • Click-Gaussian:用于实时3D场景操作的交互式分割方法
    AI
  • LG电子和首尔国立大学的研究人员推出Click-Gaussian,这是一种用于实时3D场景操作的交互式分割方法。简单来说,Click-Gaussian能够让用户通过单次点击就能在三维空间中选择和分割出他们想要的对象,无论是粗略的大致形状还是精细的细节。例如,你是一名游戏设计师,需要在虚拟现实环境中快速修改场景中的多个物... 阅读全文