AI

优惠 新型世界模型Pandora:通过生成视频来模拟未来世界的状态,并且可以接受自然语言的动作指令进行实时控制

  • 新型世界模型Pandora:通过生成视频来模拟未来世界的状态,并且可以接受自然语言的动作指令进行实时控制
    AI
  • Maitrix.org、加州大学圣地亚哥分校、MBZUAI的研究人员推出新型世界模型Pandora,它能够通过生成视频来模拟未来世界的状态,并且可以接受自然语言的动作指令进行实时控制。简单来说,Pandora就像是一个高级的虚拟助手,它可以观看视频(理解世界当前的状态),听懂你的自然语言指令(比如“汽车左转”或“添加一... 阅读全文

    优惠 一种基于L2范数的简单而有效的策略,用于压缩大语言模型中的键值(KV)缓存

  • 一种基于L2范数的简单而有效的策略,用于压缩大语言模型中的键值(KV)缓存
    AI
  • 罗马大学和爱丁堡大学发布论文,提出了一种基于L2范数的简单而有效的策略,用于压缩大型语言模型(LLMs)中的键值(KV)缓存。在大型语言模型处理长文本时,KV缓存是一个关键组件,它保存了之前token的键和值,以避免在生成过程中重新计算它们。然而,随着上下文长度的增加,KV缓存的内存需求也会增加,这限制了模型的部署和效... 阅读全文

    优惠 适用于多种类型文档的新型信息检索范式“文档截图嵌入(DSE)”

  • 适用于多种类型文档的新型信息检索范式“文档截图嵌入(DSE)”
    AI
  • 滑铁卢大学推出新型信息检索范式“文档截图嵌入”(Document Screenshot Embedding,简称DSE),DSE在实验中表现出与传统文本检索方法(如BM25)相比更高的检索准确性,并且在混合模态任务中也显示出其有效性。这表明DSE是一个有效的文档检索范式,适用于多种类型的文档。 例如,你正在寻找某个文档... 阅读全文

    优惠 MAGPIE:从大语言模型中合成高质量的指令数据

  • MAGPIE:从大语言模型中合成高质量的指令数据
    AI
  • 华盛顿大学和艾伦人工智能研究所的研究人员推出新型方法MAGPIE,它能够从大语言模型中合成高质量的指令数据。例如,你有一个非常聪明的助手,但它需要一些具体的指令来完成特定的任务。MAGPIE就像是一个能够教这个助手如何更好地理解并执行任务的系统。你想让一个语言模型学会如何回答有关健康饮食的问题。使用MAGPIE,你可以... 阅读全文

    优惠 新型基准测试MMWorld:为了全面评估多模态大语言模型在视频理解方面的能力而设计

  • 新型基准测试MMWorld:为了全面评估多模态大语言模型在视频理解方面的能力而设计
    AI
  • 新型基准测试MMWorld,它是为了全面评估多模态大语言模型(MLLMs)在视频理解方面的能力而设计的。MLLMs是一类能够处理和理解图像、文本和视频等多种模态输入的人工智能模型。MMWorld通过提供丰富的视频内容和相关问题,挑战模型在解释、反事实思考、未来预测和领域专业知识等方面的多方面推理能力。 项目主页:htt... 阅读全文

    优惠 视频大语言模型VideoLLaMA 2:为了提升视频和音频导向任务中的空间-时间建模和音频理解能力而设计

  • 视频大语言模型VideoLLaMA 2:为了提升视频和音频导向任务中的空间-时间建模和音频理解能力而设计
    AI
  • 阿里巴巴集团达摩院推出视频大语言模型VideoLLaMA 2,它是为了提升视频和音频导向任务中的空间-时间建模和音频理解能力而设计的。例如,你想让一个人工智能系统观看一段视频并回答有关视频内容的问题,或者描述视频中的场景,这就需要模型能够理解视频中的运动、物体以及它们随时间的变化,同时还得理解视频中的音频信息。Vide... 阅读全文

    优惠 大规模数据集3D-GRAND:为了提升三维语言模型的理解和减少幻觉而设计

  • 大规模数据集3D-GRAND:为了提升三维语言模型的理解和减少幻觉而设计
    AI
  • 密歇根大学和 纽约大学的研究人员推出大规模数据集3D-GRAND,它是为了提升三维语言模型(3D-LLMs)的理解和减少幻觉(hallucination,即模型错误地生成不存在的对象或信息)而设计的。例如,你有一个智能助手,它能够理解你关于房间中物品的描述,并据此回答问题或执行任务,但如果没有足够的信息,它可能会“想象... 阅读全文

    优惠 视频编辑框架NaRCan:能够生成高质量的自然规范图像,以代表输入视频

  • 视频编辑框架NaRCan:能够生成高质量的自然规范图像,以代表输入视频
    AI
  • 阳明交通大学推出视频编辑框架NaRCan,它能够生成高质量的自然规范图像(canonical images),以代表输入视频。这些规范图像非常适合用于各种视频编辑任务,比如风格转换、动态分割和手写等。NaRCan在多个视频编辑任务中的性能超越了现有的方法,并且在保持高自然性和高质量图像的同时,显著减少了训练时间。此外,... 阅读全文

    优惠 新型二维状态空间模型Chimera:专门用于有效建模多变量时间序列数据

  • 新型二维状态空间模型Chimera:专门用于有效建模多变量时间序列数据
    AI
  • 康奈尔大学计算机科学系和纽约大学格罗斯曼医学院的研究人员推出新型二维状态空间模型Chimera,它专门用于有效建模多变量时间序列数据。这类数据广泛存在于医疗保健、金融市场、能源管理等领域。例如,你是一名医生,需要分析患者的心电图数据来诊断心脏状况。Chimera可以帮助你快速理解数据中的复杂模式和趋势,从而提供更准确的... 阅读全文

    优惠 新颖方法Turbo Sparse:能够在保持模型性能的同时,显著减少每次推理迭代中激活的参数数量

  • 新颖方法Turbo Sparse:能够在保持模型性能的同时,显著减少每次推理迭代中激活的参数数量
    AI
  • 上海交通大学并行与分布式系统研究所(IPADS)、清华大学计算机科学与技术系和上海人工智能实验室的研究人员推出新颖方法Turbo Sparse,能够在保持模型性能的同时,显著减少每次推理迭代中激活的参数数量。提高大型语言模型(LLMs)在推理(inference)过程中的效率,特别是针对那些参数量巨大的模型。通过使用T... 阅读全文

    优惠 PowerInfer-2:在智能手机上实现大语言模型的高速推理,特别是对于那些模型大小超出设备内存容量的情况

  • PowerInfer-2:在智能手机上实现大语言模型的高速推理,特别是对于那些模型大小超出设备内存容量的情况
    AI
  • 上海交通大学推出PowerInfer-2,它的主要目标是在智能手机上实现大语言模型(LLMs)的高速推理,特别是对于那些模型大小超出设备内存容量的情况。PowerInfer-2是第一个能够在智能手机上以每秒11.68个token的速度运行TurboSparse-Mixtral-47B模型的系统,这是一个具有47亿参数的... 阅读全文

    优惠 新型3D绘画技术Consistency2:利用潜在一致性模型来加速和改进3D模型表面的纹理绘制

  • 新型3D绘画技术Consistency2:利用潜在一致性模型来加速和改进3D模型表面的纹理绘制
    AI
  • 苏黎世联邦理工学院推出新型3D绘画技术Consistency2,这项技术的核心是利用潜在一致性模型(Latent Consistency Models, LCM)来加速和改进3D模型表面的纹理绘制。想象一下,如果你是一名3D艺术家,想要给一个3D模型快速添加纹理,就像给一个3D打印的玩具车涂上颜色一样,但这个过程是在计... 阅读全文