大语言模型

优惠 VideoAgent:模仿人类理解长视频的认知过程,使用大语言模型作为中心代理,来迭代地识别和编译关键信息以回答问题

  • VideoAgent:模仿人类理解长视频的认知过程,使用大语言模型作为中心代理,来迭代地识别和编译关键信息以回答问题
    AI
  • 这篇论文介绍了一个名为VideoAgent的系统,它模仿人类理解长视频的认知过程,使用大型语言模型(LLM)作为中心代理,来迭代地识别和编译关键信息以回答问题。VideoAgent将视频理解过程视为一系列状态、动作和观察的序列,并通过与视觉语言模型(VLM)和对比语言-图像模型(CLIP)的交互来获取和处理视觉信息。 ... 阅读全文

    优惠 多模态智能代理VideoAgent:为了更好地理解和解释视频内容而设计

  • 多模态智能代理VideoAgent:为了更好地理解和解释视频内容而设计
    AI
  • 这篇论文介绍了一个名为VideoAgent的多模态智能代理,它是为了更好地理解和解释视频内容而设计的。想象一下,你有一个视频,里面有很多人和物体在移动,还有很多事情发生。VideoAgent就像一个超级助手,能够理解视频中的内容,并回答关于视频的问题。 主要功能: VideoAgent的主要功能是视频理解。它可以分析视... 阅读全文

    优惠 新型模型MindEye2:能够从大脑活动(fMRI)中重建出人们所看到的视觉图像

  • 新型模型MindEye2:能够从大脑活动(fMRI)中重建出人们所看到的视觉图像
    AI
  • 这篇论文介绍了一个名为MindEye2的新型模型,它能够从大脑活动(fMRI)中重建出人们所看到的视觉图像。这个模型的出现,标志着我们离理解人类视觉感知的神经基础又近了一步。MindEye2的创新之处在于,它能够使用仅有1小时的fMRI训练数据,就能产生高质量的图像重建结果。例如,如果我们想要了解一个观看自然风景图片的... 阅读全文

    优惠 大型多模态模型LLaVA-UHD:能够高效地处理任意宽高比和高分辨率的图像

  • 大型多模态模型LLaVA-UHD:能够高效地处理任意宽高比和高分辨率的图像
    AI
  • 来自清华大学、新加坡国立大学和中国科学院大学推出大型多模态模型LLaVA-UHD,它能够高效地处理任意宽高比和高分辨率的图像。在现实世界中,图像的宽高比和分辨率多种多样,这对于大型多模态模型(LMMs)在理解和处理视觉信息时提出了挑战。现有的LMMs通常只能处理固定宽高比和低分辨率的图像,这会导致图像内容的严重形变和模... 阅读全文

    优惠 IBM推出新型大语言模型Larimar:通过引入一个分布式的情节记忆系统来增强LLM的能力

  • IBM推出新型大语言模型Larimar:通过引入一个分布式的情节记忆系统来增强LLM的能力
    AI
  • IBM推出新型大语言模型Larimar,它通过引入一个分布式的情节记忆系统来增强LLM的能力。Larimar的记忆系统允许动态、一次性地更新知识,而不需要进行计算成本高昂的重新训练或微调。例如,如果我们有一个提供天气预报的AI助手,当一个新的风暴形成时,我们希望能够快速更新模型的天气预报数据。使用Larimar,我们可... 阅读全文

    优惠 谷歌发布“参数高效强化学习(PERL)”:通过人类反馈来高效地训练大语言模型,使其更好地符合人类的偏好

  • 谷歌发布“参数高效强化学习(PERL)”:通过人类反馈来高效地训练大语言模型,使其更好地符合人类的偏好
    AI
  • 谷歌发布论文的主题是如何通过人类反馈来高效地训练大语言模型(LLMs),使其更好地符合人类的偏好。具体来说,研究者们提出了一种名为“参数高效强化学习”(Parameter Efficient Reinforcement Learning,简称PERL)的方法,该方法结合了低秩适应(Low-Rank Adaptation... 阅读全文

    优惠 Gorilla:连接海量 API 的大语言模型

  • Gorilla:连接海量 API 的大语言模型
    AI
  • 加州大学伯克利分校发布论文的主题是关于如何将大语言模型(Large Language Models,简称LLMs)适应于特定领域的检索增强生成(Retrieval Augmented Generation,简称RAG)任务。简单来说,就是研究如何让AI模型在处理特定领域的问题时,能够更准确地利用相关文档来提供答案。例如... 阅读全文

    优惠 谷歌推出新型机器学习架构和训练方法DiPaCo

  • 谷歌推出新型机器学习架构和训练方法DiPaCo
    AI
  • 谷歌发布论文介绍了一个名为DiPaCo(Distributed Path Composition)的新型机器学习架构和训练方法。DiPaCo的核心思想是将大型神经网络模型分解为多个模块,这些模块可以通过路径进行分布式计算。这种方法的目的是减少在训练过程中所需的通信量,从而使得在资源有限或连接不良的计算环境中也能有效地训... 阅读全文

    优惠 Google Research发布论文介绍了一种新技术,旨在提升视觉-语言模型(VLMs)的推理能力

  • Google Research发布论文介绍了一种新技术,旨在提升视觉-语言模型(VLMs)的推理能力
    AI
  • Google Research发布论文介绍了一种新技术,旨在提升视觉-语言模型(VLMs)的推理能力。VLMs是一种人工智能模型,它能够理解和处理包含图像和文本的信息,例如图表、图形和图解。尽管VLMs在多模态任务上的表现越来越强,但它们的推理能力仍然有限,尤其是相对于大型语言模型(LLMs)而言。 主要功能和特点: ... 阅读全文

    优惠 微软推出TnT-LLM框架:利用大语言模型(LLMs)来进行文本挖掘的工具

  • 微软推出TnT-LLM框架:利用大语言模型(LLMs)来进行文本挖掘的工具
    AI
  • 微软和华盛顿大学的研究团队发布TnT-LLM框架,它是一个利用大语言模型(LLMs)来进行文本挖掘的工具。文本挖掘是指从大量文本数据中提取有用信息和见解的过程,这对于数据分析和应用至关重要。想象一下,你有一个巨大的聊天记录数据库,你想理解用户在对话中的主要意图和讨论的主题。传统的方法是通过人工来标记和分类这些文本,但这... 阅读全文

    优惠 Agent-FLAN:改进大语言模型(LLMs)作为智能代理(agents)的能力

  • Agent-FLAN:改进大语言模型(LLMs)作为智能代理(agents)的能力
    AI
  • 中国科学技术大学和 上海人工智能实验室的研究团队推出Agent-FLAN,它旨在改进大语言模型(LLMs)作为智能代理(agents)的能力。智能代理是指能够理解环境、做出决策并采取行动的系统。尽管现有的LLMs在各种自然语言处理(NLP)任务中表现出色,但它们在作为代理时的性能仍然不如基于API的模型。Agent-F... 阅读全文

    优惠 阿里推出DocOwl 1.5模型:用于理解文档图像的多模态大语言模型

  • 阿里推出DocOwl 1.5模型:用于理解文档图像的多模态大语言模型
    AI
  • 来自阿里巴巴和中国人民大学的研究团队推出DocOwl 1.5模型,它是一种用于理解文档图像的多模态大语言模型(MLLM)。DocOwl 1.5特别强调了结构信息在理解文本丰富图像(如文档、表格、图表等)中的重要性,并提出了一种统一结构学习方法来提升MLLM的性能。 GitHub地址:https://github.com... 阅读全文