人工智能

优惠 MMFM-Challenge:用于改进多模态基础模型(MMFMs)在特定任务上的表现,尤其是文档理解方面

  • MMFM-Challenge:用于改进多模态基础模型(MMFMs)在特定任务上的表现,尤其是文档理解方面
    AI
  • 新框架“多模态结构化生成”(Multimodal Structured Generation),它用于改进多模态基础模型(Multimodal Foundation Models,简称MMFMs)在特定任务上的表现,尤其是文档理解方面。MMFMs是结合了不同模态(如视觉和语言)的预训练基础模型,虽然在多种任务上表现出色... 阅读全文

    优惠 用于自动驾驶车辆模拟和基准测试的数据驱动工具NAVSIM

  • 用于自动驾驶车辆模拟和基准测试的数据驱动工具NAVSIM
    AI
  • 新框架NAVSIM是一个用于自动驾驶车辆模拟和基准测试的数据驱动工具。NAVSIM特别关注于评估基于视觉的驾驶策略,这些策略试图让自动驾驶车辆能够理解和响应它们周围的世界。NAVSIM在CVPR 2024上举办的一个竞赛,吸引了来自世界各地的团队提交了多种方法,展示了NAVSIM在推动自动驾驶研究方面的潜力。此外,论文... 阅读全文

    优惠 改进信息检索(IR)的方法RE-AdaptIR:通过逆向工程适应来提升信息检索的效果

  • 改进信息检索(IR)的方法RE-AdaptIR:通过逆向工程适应来提升信息检索的效果
    AI
  • 约翰霍普金斯大学的研究人员推出一种改进信息检索(IR)的方法,称为"RE-AdaptIR",即通过逆向工程适应(Reverse Engineered Adaptation)来提升信息检索的效果。这种方法特别适用于大型语言模型(LLMs),这些模型在经过微调后能够在多个信息检索基准测试中取得最先进的结果。但问题是,这种监... 阅读全文

    优惠 自动视频质量评估工具MANTISSCORE:自动评估视频生成的质量

  • 自动视频质量评估工具MANTISSCORE:自动评估视频生成的质量
    AI
  • 滑铁卢大学、清华大学、Stardust.AI、多伦多大学和AI2的研究人员推出自动视频质量评估工具MANTISSCORE,自动评估视频生成的质量。随着人工智能技术的发展,尤其是文本到视频(Text-to-Video, T2V)生成模型的快速进步,我们需要一种可靠的方法来评估这些由AI生成的视频的质量。但是,现有的评估指... 阅读全文

    优惠 STYLE-NERF2NERF:用于将二维图像的风格转换应用到三维场景中

  • STYLE-NERF2NERF:用于将二维图像的风格转换应用到三维场景中
    AI
  • 东京大学和 RIKEN的研究人员推出一种新颖的方法STYLE-NERF2NERF,用于将二维图像的风格转换应用到三维场景中。简单来说,就是让3D场景看起来具有某种特定的艺术风格,比如印象派画作或流行艺术。论文还提到了这种方法的一些限制,比如对于细节结构如植物和树木的重建可能存在挑战,以及对于训练图像中变化较大的对象(如... 阅读全文

    优惠 评估和提升大型多模态模型(LMMs)在理解情境方面的能力

  • 评估和提升大型多模态模型(LMMs)在理解情境方面的能力
    AI
  • 德国波茨坦大学和德国人工智能研究中心 (DFKI)的研究人员发布论文,论文的主题是研究如何评估和提升大型多模态模型(LMMs)在理解情境方面的能力。多模态模型是指那些能够同时处理文本和图像输入的人工智能模型。论文的核心观点是,尽管这些模型在文本处理方面已经取得了很大进步,但目前对于如何评估它们在结合图像信息理解情境的能... 阅读全文

    优惠 解码时对齐技术DARWIN:让大语言模型在生成回答时更符合用户的意图和偏好

  • 解码时对齐技术DARWIN:让大语言模型在生成回答时更符合用户的意图和偏好
    AI
  • 新加坡科技设计大学的研究人员推出一种解码时对齐技术DARWIN,让大语言模型在生成回答时更符合用户的意图和偏好。论文还进行了实验,证明了DARWIN方法在两个广泛认可的基准测试(AlpacaEval 2和MT-Bench)上,比其他一些偏好优化和解码时对齐方法表现得更好。这就像是在一场语言模型的竞赛中,DARWIN方法... 阅读全文

    优惠 如何提升语言模型在规划任务中的性能,特别是那些需要多步骤模拟的复杂规划任务

  • 如何提升语言模型在规划任务中的性能,特别是那些需要多步骤模拟的复杂规划任务
    AI
  • 韩国科学技术研究院和三星研究院的研究人员发布论文,论文的主题是探讨如何提升语言模型在规划任务中的性能,特别是那些需要多步骤模拟的复杂规划任务。研究者们从人类的认知过程获得灵感,提出了一种新的方法,通过构建一种“认知地图”(cognitive map)来增强语言模型的规划能力。论文通过在Gridworld路径规划任务中的... 阅读全文

    优惠 ReMiss:大语言模型在经过安全和可靠性训练后,为何仍然容易受到敌意攻击

  • ReMiss:大语言模型在经过安全和可靠性训练后,为何仍然容易受到敌意攻击
    AI
  • 香港大学和华为诺亚方舟实验室的研究人员发布论文,论文的主题是探讨大语言模型(LLMs)在经过安全和可靠性训练(alignment)后,为何仍然容易受到敌意攻击(adversarial attacks),特别是所谓的“越狱”(jailbreaking)现象。越狱指的是LLMs在面对精心设计的提示时,会违反预设的限制,生成... 阅读全文

    优惠 如何将检索增强型生成(RAG)应用于大型视频库,以提高视频内容的检索和再利用效率

  • 如何将检索增强型生成(RAG)应用于大型视频库,以提高视频内容的检索和再利用效率
    AI
  • Moments Lab Research发布论文,论文的主题是探讨如何将检索增强型生成(RAG)应用于大型视频库,以提高视频内容的检索和再利用效率。简单来说,就是利用人工智能技术帮助视频创作者在海量视频资料中快速找到所需片段,并生成包含具体视频时间戳的答案。 例如,你是一名视频编辑,需要制作一个关于宇航员在国际空间站(... 阅读全文

    优惠 使用大语言模型作为评估员(或“法官”)来评价其他语言模型的表现

  • 使用大语言模型作为评估员(或“法官”)来评价其他语言模型的表现
    AI
  • 马萨诸塞大学阿默斯特分校和Meta的研究人员发布论文,论文的主题是探讨使用大语言模型(LLMs)作为评估员(或“法官”)来评价其他语言模型的表现。这个概念很有前景,因为它解决了人类评估难以扩展到大规模语言模型的问题。但是,这种方法的准确性、可靠性以及可能存在的偏见还是未知的。 例如,我们有一群学生(这里是其他的语言模型... 阅读全文

    优惠 人工智能框架LongRAG:用于增强检索增强型生成模型(RAG)在处理长文本内容时的能力

  • 人工智能框架LongRAG:用于增强检索增强型生成模型(RAG)在处理长文本内容时的能力
    AI
  • 滑铁卢大学的研究人员推出新型的人工智能框架LongRAG,它用于增强检索增强型生成模型(Retrieval-Augmented Generation, RAG)在处理长文本内容时的能力。简单来说,LongRAG 通过改进传统的 RAG 框架,使其能够更有效地处理和理解大量的信息,从而提高在开放领域问答任务中的表现。 项... 阅读全文