大语言模型

优惠 新框架MIGA:提高股票市场预测的准确性而设计

  • 新框架MIGA:提高股票市场预测的准确性而设计
    AI
  • 清华大学和XM资本的研究人员推出新框架MIGA,它是为了提高股票市场预测的准确性而设计的。简单来说,MIGA通过组合多个专家模型(Experts)来预测股票价格的未来走势,并且能够根据不同类型的股票动态选择最合适的专家模型进行预测。例如,你是一名投资者,正在考虑投资某个大型科技公司的股票。你可以使用MIGA来预测这支股... 阅读全文

    优惠 基准测试NL-EYE:评估视觉语言模型(VLMs)在图像上进行推理的能力

  • 基准测试NL-EYE:评估视觉语言模型(VLMs)在图像上进行推理的能力
    AI
  • 以色列理工学院和谷歌的研究人员推出一个名为NL-EYE的基准测试,它是为了评估视觉语言模型(VLMs)在图像上进行推理的能力而设计的。例如,一个基于VLM的机器人检测到地板湿了,它是否会警告我们小心滑倒?这就是NL-EYE想要测试的——VLMs是否能够理解图像内容,并据此做出合理的推断。 项目主页:https://ve... 阅读全文

    优惠 新型多模态大语言模型VideoLISA:专为视频领域内基于语言指令的推理分割任务而设计

  • 新型多模态大语言模型VideoLISA:专为视频领域内基于语言指令的推理分割任务而设计
    AI
  • 新加坡国立大学和亚马逊的研究人员推出新型多模态大语言模型VideoLISA,它专为视频领域内基于语言指令的推理分割任务而设计。VideoLISA结合了大型语言模型的推理能力和对世界知识的掌握,并借助Segment Anything Model(SAM)生成基于语言指令的视频内的时间一致性分割掩码。例如,你是一名视频编辑... 阅读全文

    优惠 TPI-LLM:为了在资源受限的边缘设备上高效运行大语言模型而设计的推理系统

  • TPI-LLM:为了在资源受限的边缘设备上高效运行大语言模型而设计的推理系统
    AI
  • 穆罕默德·本·扎耶德人工智能大学和电子科技大学的研究人员推出TPI-LLM,这是一个为了在资源受限的边缘设备上高效运行大语言模型(LLMs)而设计的推理系统。随着技术的发展,人们越来越关注将这些强大的模型从云端转移到边缘设备上,以便更好地保护用户数据的隐私,同时减少延迟。 例如,你有一个智能音箱,需要处理用户的语音命令... 阅读全文

    优惠 新型多模态大语言模型LEOPARD:专门为处理包含丰富文本的多图像任务而设计

  • 新型多模态大语言模型LEOPARD:专门为处理包含丰富文本的多图像任务而设计
    AI
  • 圣母大学、腾讯人工智能西雅图实验室的研究人员推出新型多模态大语言模型LEOPARD,它专门为处理包含丰富文本的多图像任务而设计。这类任务在现实世界中非常普遍,比如幻灯片、扫描文档和网页快照等。例如,你是一名学生,需要准备一场关于经济报告的演讲。你手上有一系列包含图表和数据的幻灯片。使用LEOPARD,你可以将这些幻灯片... 阅读全文

    优惠 英伟达推出一种用于无标签多教师知识蒸馏的方法PHI-S

  • 英伟达推出一种用于无标签多教师知识蒸馏的方法PHI-S
    AI
  • 英伟达推出一种名为PHI-S(PHI Standardization)的技术,它是一种用于无标签多教师知识蒸馏的方法。知识蒸馏是一种技术,它允许一个“学生”模型去学习并模仿一个或多个“教师”模型的行为,而不需要直接访问训练数据。PHI-S特别关注于如何平衡和标准化来自不同教师模型的特征激活分布,以便学生模型可以更准确地... 阅读全文

    优惠 新型框架OPEN-RAG:增强大语言模型(LLMs)的推理能力

  • 新型框架OPEN-RAG:增强大语言模型(LLMs)的推理能力
    AI
  • 孟加拉国工程技术大学、北德克萨斯大学、加拿大约克大学、Salesforce Research、卡塔尔计算研究所 (QCRI)、Fatima Al-Fihri 博士前奖学金和Cohere For AI Community的研究人员推出新型框架OPEN-RAG,它旨在增强大语言模型(LLMs)的推理能力,特别是当这些模型是... 阅读全文

    优惠 新型大型多模态模型LLaVA-3D:能够理解和处理三维(3D)空间信息,而不仅仅是传统的二维(2D)图像和视频

  • 新型大型多模态模型LLaVA-3D:能够理解和处理三维(3D)空间信息,而不仅仅是传统的二维(2D)图像和视频
    AI
  • 香港大学和上海人工智能实验室的研究人员推出新型大型多模态模型LLaVA-3D,它能够理解和处理三维(3D)空间信息,而不仅仅是传统的二维(2D)图像和视频。想象一下,你有一个AI助手,不仅能看懂图片和文字,还能理解图片中的物体在三维空间中的位置和关系,比如它们是靠近还是远离,或者它们之间的相互位置。 项目主页:http... 阅读全文

    优惠 多模态大语言模型EMOVA:使大语言模型具备端到端的语音能力,同时保持领先的视觉-语言性能。

  • 多模态大语言模型EMOVA:使大语言模型具备端到端的语音能力,同时保持领先的视觉-语言性能。
    AI
  • 香港科技大学、香港大学,、华为诺亚方舟实验室、香港中文大学、中山大学和南方科技大学的研究人员推出多模态大语言模型EMOVA,使大语言模型具备端到端的语音能力,同时保持领先的视觉-语言性能。通过一个语义-声学解耦的语音标记器,研究团队发现全模态对齐可以进一步增强视觉-语言和语音能力,相比于双模态对齐。此外,我们提出了一个... 阅读全文

    优惠 可学习剪枝方法MaskLLM:通过在大语言模型中建立半结构化(或“N:M”)稀疏性来减少推理过程中的计算开销

  • 可学习剪枝方法MaskLLM:通过在大语言模型中建立半结构化(或“N:M”)稀疏性来减少推理过程中的计算开销
    AI
  • 英伟达和新加坡国立大学的研究人员推出可学习剪枝方法MaskLLM,旨在通过在大语言模型中建立半结构化(或“N:M”)稀疏性来减少推理过程中的计算开销。MaskLLM不采用新的重要性标准,而是通过Gumbel Softmax采样将N:M模式显式建模为可学习的分布。这种方法促进了对大规模数据集的端到端训练,并具有两个显著优... 阅读全文

    优惠 新型多模态方法MonoFormer:核心思想是使用单一的Transformer来处理两种不同的生成任务

  • 新型多模态方法MonoFormer:核心思想是使用单一的Transformer来处理两种不同的生成任务
    AI
  • 百度 VIS 和悉尼科技大学的研究人员推出一种新型多模态方法,称为MonoFormer。这个方法的核心思想是使用单一的Transformer来处理两种不同的生成任务:基于自回归(autoregression)的离散文本生成和基于扩散(diffusion)的连续视觉生成。例如,你有一台机器,它可以读取一段文本然后创造出与... 阅读全文

    优惠 TIME-MOE:用于时间序列预测的大规模基础模型

  • TIME-MOE:用于时间序列预测的大规模基础模型
    AI
  • 普林斯顿大学、松鼠AI学习和格里菲斯大学的研究人员推出新框架TIME-MOE,它是一个用于时间序列预测的大规模基础模型。TIME-MOE的核心是一个新颖的、高效的解码器-只有的Transformer模型,它采用了专家混合(MoE)架构,能够在保持高性能的同时减少计算成本。 GitHub:https://github.c... 阅读全文