AI

优惠 新型多模态大语言模型LLaVaOLMoBitNet1B:首个能够处理图像和文本输入并产生连贯文本响应的三元(Ternary)多模态大型语言模型

  • 新型多模态大语言模型LLaVaOLMoBitNet1B:首个能够处理图像和文本输入并产生连贯文本响应的三元(Ternary)多模态大型语言模型
    AI
  • 英特尔实验室推出新型多模态大语言模型LLaVaOLMoBitNet1B,它是首个能够处理图像和文本输入并产生连贯文本响应的三元(Ternary)多模态大型语言模型。这种模型通过使用三元权重量化技术,旨在实现在较小的计算成本上提供高效的人工智能服务。例如,你是一名社交媒体内容分析师,需要自动生成图片的描述或回答关于图片的... 阅读全文

    优惠 量化新技术MobileQuant:解决在移动设备上部署大语言模型时面临的内存、能源和计算成本问题

  • 量化新技术MobileQuant:解决在移动设备上部署大语言模型时面临的内存、能源和计算成本问题
    AI
  • 三星剑桥人工智能中心推出量化新技术MobileQuant,它旨在解决在移动设备上部署大语言模型(LLMs)时面临的内存、能源和计算成本问题。大型语言模型虽然在多种应用中表现出色,但要在手机等边缘设备上使用它们却存在许多挑战。MobileQuant通过减少表示权重和激活所需的位数来降低这些成本,使得LLMs能够在移动设备... 阅读全文

    优惠 新型服务框架NanoFlow:通过利用设备内部的并行性,显著提高大语言模型的推理吞吐量

  • 新型服务框架NanoFlow:通过利用设备内部的并行性,显著提高大语言模型的推理吞吐量
    AI
  • 华盛顿大学的研究人员推出新型服务框架NanoFlow,它旨在通过利用设备内部的并行性,显著提高大语言模型(LLMs)的推理吞吐量。在当今数字化时代,大型语言模型被广泛应用于聊天机器人、搜索引擎和办公软件等领域,对计算资源的需求日益增长。NanoFlow通过在单个设备内并行使用计算、内存和网络资源,优化了模型的推理过程。... 阅读全文

    优惠 新型AI系统MLMove:能够模仿专业《CS:GO》玩家的移动方式

  • 新型AI系统MLMove:能够模仿专业《CS:GO》玩家的移动方式
    AI
  • 新型AI系统MLMove,它能够模仿专业《反恐精英:全球攻势》(CS:GO)玩家的移动方式。想象一下,你在游戏中,需要与队友协调行动,比如一起进攻或防守某个区域,MLMove就像是一个虚拟的队友,能够学习并展现出专业玩家的移动策略。 项目主页:https://davidbdurst.com/mlmove GitHub:... 阅读全文

    优惠 评估平台K-Sort Arena:专门用来测试和比较生成模型的性能

  • 评估平台K-Sort Arena:专门用来测试和比较生成模型的性能
    AI
  • 中国科学院自动化研究所和加州大学伯克利分校的研究人员推出评估平台K-Sort Arena,它专门用来测试和比较生成模型的性能。你可以把生成模型想象成一位艺术家,它可以根据给定的文字描述创作出图片或视频。但就像评价艺术品一样,我们需要一种方法来评估这些艺术家的作品质量,这就是K-Sort Arena发挥作用的地方。 项目... 阅读全文

    优惠 新方法HiRED:提高高分辨率视觉-语言模型(VLMs)在资源受限环境中的推理效率

  • 新方法HiRED:提高高分辨率视觉-语言模型(VLMs)在资源受限环境中的推理效率
    AI
  • 弗吉尼亚理工大学、贝尔法斯特女王大学和都柏林大学学院的研究人员推出新方法HiRED(High-Resolution Early Dropping),它旨在提高高分辨率视觉-语言模型(VLMs)在资源受限环境中的推理效率。这些模型广泛应用于多模态任务中,如图像和文本的联合理解,但在处理高分辨率图像时,它们会产生大量的视觉... 阅读全文

    优惠 FLoD: 在定制渲染中将可调节的细节层次整合到三维高斯溅射中

  • FLoD: 在定制渲染中将可调节的细节层次整合到三维高斯溅射中
    AI
  • 延世大学的研究人员推出一种名为FLoD(Flexible Level of Detail,灵活的细节层次)的技术,它被集成到了3D Gaussian Splatting(3DGS,三维高斯溅射)中,以实现可定制的渲染效果。3DGS是一种用于快速、高质量渲染的3D场景表示方法,但传统的3DGS对内存的需求很高,这限制了它... 阅读全文

    优惠 T3M:能够通过语音和文本的输入来生成逼真的3D人体动作

  • T3M:能够通过语音和文本的输入来生成逼真的3D人体动作
    AI
  • 上海人工智能实验室和纽约大学的研究人员推出新技术T3M,它能够通过语音和文本的输入来生成逼真的3D人体动作。这项技术对于虚拟现实(VR)、游戏开发和电影制作等领域有着重要的应用价值。例如,你正在为一款虚拟现实游戏设计一个角色,这个角色需要根据玩家的语音指令来做出相应的动作。传统的方法可能只能根据语音的音调、速度等特征来... 阅读全文

    优惠 多模态大语言模型基准评测MME-RealWorld:现实世界高分辨率场景下的性能评估

  • 多模态大语言模型基准评测MME-RealWorld:现实世界高分辨率场景下的性能评估
    AI
  • 中科院人工智能研究所、南京大学、香港科技大学、南洋理工大学、中科院大学、松鼠AI和Meta AI的研究人员推出多模态大语言模型基准MME-RealWorld,在现实世界高分辨率场景下的性能评估。简单来说,就是研究当这些智能模型面对真实世界中的复杂图像和问题时,它们的表现如何。 项目主页:https://mme-real... 阅读全文

    优惠 从单一文本提示生成全视角可探索全景三维场景的新型框架LayerPano3D

  • 从单一文本提示生成全视角可探索全景三维场景的新型框架LayerPano3D
    AI
  • 上海交通大学、香港中文大学、浙江大学、上海人工智能实验室、斯坦福大学和南洋理工大学的研究人员推出LayerPano3D,这是一种从单一文本提示生成全视角可探索全景三维场景的新型框架。我们的核心见解是将参考二维全景图分解为不同深度级别的多个图层,每个图层通过扩散先验揭示参考视图中看不见的空间。LayerPano3D 包含... 阅读全文

    优惠 构建和深入理解视觉-语言模型!Hugging Face推出理解视觉-语言模型Idefics3-8B

  • 构建和深入理解视觉-语言模型!Hugging Face推出理解视觉-语言模型Idefics3-8B
    AI
  • Hugging Face发布论文,论文的主题是关于构建和深入理解视觉-语言模型(VLMs)。VLMs是一种人工智能模型,它们能够处理和理解图像和文本,然后将这些信息综合起来输出文本。简单来说,这些模型就像一个能够“看”图片并“写”出描述的智能系统。它们还推出了Idefics3-8B,这是一个强大的VLM,它在开放数据集... 阅读全文

    优惠 新型人工智能代理Anim-Director:一个强大的多模态大型模型驱动的动画视频生成器

  • 新型人工智能代理Anim-Director:一个强大的多模态大型模型驱动的动画视频生成器
    AI
  • 哈尔滨工业大学(深圳)推出新型人工智能代理Anim-Director,它是一个强大的多模态大型模型(LMMs)驱动的动画视频生成器。简单来说,Anim-Director就像一个虚拟的动画导演,能够根据简短的叙述或指令,自动创作出连贯、内容丰富的动画视频。例如,一个小朋友想讲述一个关于小猫和小狗在花园玩耍的故事,Anim... 阅读全文