AI

优惠 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容

  • 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容
    AI
  • 阿姆斯特丹大学推出一种新型的视频预训练方法,名为SIGMA(Sinkhorn-Guided Masked Video Modeling)。这个方法的核心是通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容。SIGMA方法就像是换了一种学习方式,它让计算机学习如何把视频分成一个个小块,然后教... 阅读全文

    优惠 三维人体与物体交互F-HOI:能够理解和生成与人类与物体交互相关的精细描述

  • 三维人体与物体交互F-HOI:能够理解和生成与人类与物体交互相关的精细描述
    AI
  • 北京通用人工智能研究院和 北京大学人工智能研究院的研究人员推出新模型F-HOI,它能够理解和生成与人类与物体交互相关的精细描述。主要是三维人体与物体交互(3D Human-Object Interaction, HOI)的精细语义对齐问题。想象一下,你有一个虚拟助手,能够观察一个人在视频中如何拿起一个瑜伽垫,然后不仅能... 阅读全文

    优惠 全新基准测试工具T2V-CompBench:用于评估文本到视频(Text-to-Video, T2V)生成模型的性能

  • 全新基准测试工具T2V-CompBench:用于评估文本到视频(Text-to-Video, T2V)生成模型的性能
    AI
  • 香港大学、香港中文大学和华为诺亚方舟实验室的研究人员推出全新基准测试工具T2V-CompBench,它专门用于评估文本到视频(Text-to-Video, T2V)生成模型的性能。T2V模型需要根据这个描述生成一段视频。但T2V-CompBench不仅测试模型能否生成视频,更重要的是测试它是否能够准确地组合多个对象、属... 阅读全文

    优惠 “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题

  • “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题
    AI
  • 深圳市大数据研究院和香港中文大学(深圳)的研究人员引入“诊断链”(CoD)的概念,解决了大语言模型在医疗诊断领域中可解释性的问题。CoD将诊断过程转化为一个模仿医生思维流程的诊断链条,从而提供了一条清晰的推理路径。此外,CoD还能输出疾病确信度分布,确保决策过程的透明度。 GitHub:https://github.c... 阅读全文

    优惠 新型文本检索基准测试BRIGHT:用来评估和挑战检索系统在处理复杂查询时的表现

  • 新型文本检索基准测试BRIGHT:用来评估和挑战检索系统在处理复杂查询时的表现
    AI
  • 香港大学、 普林斯顿大学、华盛顿大学和Google Cloud AI 研究的研究人员推出新型文本检索基准测试BRIGHT,它专门设计用来评估和挑战检索系统在处理复杂查询时的表现。这些查询不仅需要关键词匹配,还需要深入的推理能力来识别相关文档。简单来说,BRIGHT测试的是检索系统是否能够“理解”查询背后的逻辑和上下文,... 阅读全文

    优惠 多模态大语言模型评估框架MultiTrust

  • 多模态大语言模型评估框架MultiTrust
    AI
  • 清华大学、北京航空航天大学、上海交通大学和RealAI的研究人员推出多模态大语言模型评估框架MultiTrust。简单来说,就是研究这些能够同时处理文本和图像等多种形式信息的人工智能模型是否值得信赖。这包括了它们在面对各种任务时的准确性、安全性、鲁棒性、公平性和隐私保护能力。 项目主页:https://multi-tr... 阅读全文

    优惠 Streetscapes:通过大规模一致性的街景生成技术,从少量图像中生成连贯的城市街景视图

  • Streetscapes:通过大规模一致性的街景生成技术,从少量图像中生成连贯的城市街景视图
    AI
  • Google 研究和斯坦福大学的研究人员推出Streetscapes,即通过大规模一致性的街景生成技术,从少量图像中生成连贯的城市街景视图。这项技术可以用于从单一视频生成动态场景的三维重建和新视角合成。简单来说,就是利用几张街景图片和一些文本描述,计算机能够自动生成一段连续的、逼真的城市街道视频,展示出街道随着时间和天... 阅读全文

    优惠 Shape of Motion:从单一视频重建动态场景的四维(4D)结构

  • Shape of Motion:从单一视频重建动态场景的四维(4D)结构
    AI
  • 加州大学伯克利分校和 Google 研究的研究人员推出Shape of Motion,从单一视频重建动态场景的四维(4D)结构。这项技术旨在从一段普通的单眼(即从一个视角)视频中恢复出场景的三维(3D)几何结构和随时间变化的运动轨迹。简单来说,就是让计算机能够从一段视频中理解物体的形状和它们是如何移动的。 项目主页:h... 阅读全文

    优惠 3D重建技术SparseCraft:从少量彩色图像中恢复出3D形状和视角依赖的外观,实现高效的3D重建和新视角合成

  • 3D重建技术SparseCraft:从少量彩色图像中恢复出3D形状和视角依赖的外观,实现高效的3D重建和新视角合成
    AI
  • 来自法国的团队推出一种新颖的3D重建技术,名为SparseCraft。这项技术能够从少量彩色图像中恢复出3D形状和视角依赖的外观,实现高效的3D重建和新视角合成。简单来说,就是通过几张图片来构建一个物体的三维模型,并能在不同视角下生成逼真的图像。例如,你是一名建筑师,需要将一个古老的建筑转换成3D模型以进行翻新设计。使... 阅读全文

    优惠 提高自动音频字幕生成( AAC)的效率

  • 提高自动音频字幕生成( AAC)的效率
    AI
  • 上海交通大学人工智能教育部重点实验室X-LANCE实验室和英国萨里大学视觉、语音和信号处理中心的研究人员发布论文,论文的主题是关于提高自动音频字幕生成(Automated Audio Captioning, AAC)的效率,即如何让计算机更好地理解音频内容并生成相应的文本描述。想象一下,当你在听一段音乐或者演讲,计算机... 阅读全文

    优惠 Phi-3 Safety Post-Training:调整和优化他们开发的Phi-3系列小型语言模型

  • Phi-3 Safety Post-Training:调整和优化他们开发的Phi-3系列小型语言模型
    AI
  • 微软发布论文,论文的主题是关于如何确保语言模型在实际应用中既安全又符合人类的偏好和安全考虑。具体来说,论文介绍了微软公司如何通过一系列的方法和步骤,来调整和优化他们开发的Phi-3系列小型语言模型(SLMs),使其在各种场景下生成的内容更加安全和负责任。通过这种“破坏-修复”的迭代过程,微软能够显著提高Phi-3模型在... 阅读全文

    优惠 PlacidDreamer:用于将文本转换成3D模型的先进框架

  • PlacidDreamer:用于将文本转换成3D模型的先进框架
    AI
  • 清华大学和快手的研究人员推出PlacidDreamer,这是一个用于将文本转换成3D模型的先进框架。想象一下,如果你能通过简单的文字描述,比如“一个红色的苹果”,然后计算机就能生成一个3D的苹果模型,这听起来是不是很酷?这就是PlacidDreamer所做的工作。例如,你是一个游戏设计师,你需要设计一个“中世纪城堡”的... 阅读全文