人工智能

优惠 新型文本检索基准测试BRIGHT:用来评估和挑战检索系统在处理复杂查询时的表现

  • 新型文本检索基准测试BRIGHT:用来评估和挑战检索系统在处理复杂查询时的表现
    AI
  • 香港大学、 普林斯顿大学、华盛顿大学和Google Cloud AI 研究的研究人员推出新型文本检索基准测试BRIGHT,它专门设计用来评估和挑战检索系统在处理复杂查询时的表现。这些查询不仅需要关键词匹配,还需要深入的推理能力来识别相关文档。简单来说,BRIGHT测试的是检索系统是否能够“理解”查询背后的逻辑和上下文,... 阅读全文

    优惠 多模态大语言模型评估框架MultiTrust

  • 多模态大语言模型评估框架MultiTrust
    AI
  • 清华大学、北京航空航天大学、上海交通大学和RealAI的研究人员推出多模态大语言模型评估框架MultiTrust。简单来说,就是研究这些能够同时处理文本和图像等多种形式信息的人工智能模型是否值得信赖。这包括了它们在面对各种任务时的准确性、安全性、鲁棒性、公平性和隐私保护能力。 项目主页:https://multi-tr... 阅读全文

    优惠 Streetscapes:通过大规模一致性的街景生成技术,从少量图像中生成连贯的城市街景视图

  • Streetscapes:通过大规模一致性的街景生成技术,从少量图像中生成连贯的城市街景视图
    AI
  • Google 研究和斯坦福大学的研究人员推出Streetscapes,即通过大规模一致性的街景生成技术,从少量图像中生成连贯的城市街景视图。这项技术可以用于从单一视频生成动态场景的三维重建和新视角合成。简单来说,就是利用几张街景图片和一些文本描述,计算机能够自动生成一段连续的、逼真的城市街道视频,展示出街道随着时间和天... 阅读全文

    优惠 Shape of Motion:从单一视频重建动态场景的四维(4D)结构

  • Shape of Motion:从单一视频重建动态场景的四维(4D)结构
    AI
  • 加州大学伯克利分校和 Google 研究的研究人员推出Shape of Motion,从单一视频重建动态场景的四维(4D)结构。这项技术旨在从一段普通的单眼(即从一个视角)视频中恢复出场景的三维(3D)几何结构和随时间变化的运动轨迹。简单来说,就是让计算机能够从一段视频中理解物体的形状和它们是如何移动的。 项目主页:h... 阅读全文

    优惠 3D重建技术SparseCraft:从少量彩色图像中恢复出3D形状和视角依赖的外观,实现高效的3D重建和新视角合成

  • 3D重建技术SparseCraft:从少量彩色图像中恢复出3D形状和视角依赖的外观,实现高效的3D重建和新视角合成
    AI
  • 来自法国的团队推出一种新颖的3D重建技术,名为SparseCraft。这项技术能够从少量彩色图像中恢复出3D形状和视角依赖的外观,实现高效的3D重建和新视角合成。简单来说,就是通过几张图片来构建一个物体的三维模型,并能在不同视角下生成逼真的图像。例如,你是一名建筑师,需要将一个古老的建筑转换成3D模型以进行翻新设计。使... 阅读全文

    优惠 提高自动音频字幕生成( AAC)的效率

  • 提高自动音频字幕生成( AAC)的效率
    AI
  • 上海交通大学人工智能教育部重点实验室X-LANCE实验室和英国萨里大学视觉、语音和信号处理中心的研究人员发布论文,论文的主题是关于提高自动音频字幕生成(Automated Audio Captioning, AAC)的效率,即如何让计算机更好地理解音频内容并生成相应的文本描述。想象一下,当你在听一段音乐或者演讲,计算机... 阅读全文

    优惠 Phi-3 Safety Post-Training:调整和优化他们开发的Phi-3系列小型语言模型

  • Phi-3 Safety Post-Training:调整和优化他们开发的Phi-3系列小型语言模型
    AI
  • 微软发布论文,论文的主题是关于如何确保语言模型在实际应用中既安全又符合人类的偏好和安全考虑。具体来说,论文介绍了微软公司如何通过一系列的方法和步骤,来调整和优化他们开发的Phi-3系列小型语言模型(SLMs),使其在各种场景下生成的内容更加安全和负责任。通过这种“破坏-修复”的迭代过程,微软能够显著提高Phi-3模型在... 阅读全文

    优惠 PlacidDreamer:用于将文本转换成3D模型的先进框架

  • PlacidDreamer:用于将文本转换成3D模型的先进框架
    AI
  • 清华大学和快手的研究人员推出PlacidDreamer,这是一个用于将文本转换成3D模型的先进框架。想象一下,如果你能通过简单的文字描述,比如“一个红色的苹果”,然后计算机就能生成一个3D的苹果模型,这听起来是不是很酷?这就是PlacidDreamer所做的工作。例如,你是一个游戏设计师,你需要设计一个“中世纪城堡”的... 阅读全文

    优惠 FLUTE:专门为使用查找表量化(LUT-quantized)的大语言模型设计

  • FLUTE:专门为使用查找表量化(LUT-quantized)的大语言模型设计
    AI
  • 麻省理工学院、普罗夫迪夫数学高中和卡内基梅隆大学的研究人员推出FLUTE,FLUTE是一个灵活的查找表引擎,专门为使用查找表量化(LUT-quantized)的LLMs设计。简单来说,量化就是一种数据压缩技术,可以减少模型大小,加快运算速度,但同时也可能影响模型的精度。 GitHub:https://github.co... 阅读全文

    优惠 研究编码基准测试SciCode:评估和提高语言模型在解决真实科学问题方面的能力

  • 研究编码基准测试SciCode:评估和提高语言模型在解决真实科学问题方面的能力
    AI
  • SciCode是一个研究编码基准测试,这是一个由科学家们策划的挑战性编程任务集合。SciCode的目的是评估和提高语言模型(LMs)在解决真实科学问题方面的能力。这些问题涵盖了自然科学的多个领域,包括数学、物理、化学、生物学和材料科学。论文还提到了Claude3.5-Sonnet模型在SciCode中的表现,它在最现实... 阅读全文

    优惠 谷歌推出新型稀疏自编码器JumpReLU SAEs:用于提高语言模型激活的重建保真度

  • 谷歌推出新型稀疏自编码器JumpReLU SAEs:用于提高语言模型激活的重建保真度
    AI
  • 谷歌推出新型稀疏自编码器(Sparse Autoencoders, SAEs),称为JumpReLU SAEs,它用于提高语言模型(Language Model, LM)激活的重建保真度。简单来说,这种技术可以帮助我们从大量文本数据中提取出关键信息,并且以一种非常节省资源的方式表示这些信息。论文还提到了一些限制和未来的... 阅读全文

    优惠 新型视觉文本生成方法SceneVTG:能够在野外环境(即非受控的自然环境)中生成高质量的文本图像

  • 新型视觉文本生成方法SceneVTG:能够在野外环境(即非受控的自然环境)中生成高质量的文本图像
    AI
  • 阿里巴巴和华中科技大学的研究人员推出一种新型视觉文本生成方法,称为SceneVTG(Scene Visual Text Generator),它能够在野外环境(即非受控的自然环境)中生成高质量的文本图像。这项技术特别关注于生成的文本图像需要满足三个关键标准:真实性(Fidelity)、合理性(Reasonability... 阅读全文