优惠 VideoAgent：模仿人类理解长视频的认知过程，使用大语言模型作为中心代理，来迭代地识别和编译关键信息以回答问题

AI

推荐人：暴走AI 标签：VideoAgent AI

2年前 (2024-03-20)AI

这篇论文介绍了一个名为VideoAgent的系统，它模仿人类理解长视频的认知过程，使用大型语言模型（LLM）作为中心代理，来迭代地识别和编译关键信息以回答问题。VideoAgent将视频理解过程视为一系列状态、动作和观察的序列，并通过与视觉语言模型（VLM）和对比语言-图像模型（CLIP）的交互来获取和处理视觉信息。 ... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态智能代理VideoAgent：为了更好地理解和解释视频内容而设计

AI

推荐人：暴走AI 标签：VideoAgent AI

2年前 (2024-03-20)AI

这篇论文介绍了一个名为VideoAgent的多模态智能代理，它是为了更好地理解和解释视频内容而设计的。想象一下，你有一个视频，里面有很多人和物体在移动，还有很多事情发生。VideoAgent就像一个超级助手，能够理解视频中的内容，并回答关于视频的问题。主要功能： VideoAgent的主要功能是视频理解。它可以分析视... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型模型MindEye2：能够从大脑活动（fMRI）中重建出人们所看到的视觉图像

AI

推荐人：暴走AI 标签：MindEye2 AI

2年前 (2024-03-20)AI

这篇论文介绍了一个名为MindEye2的新型模型，它能够从大脑活动（fMRI）中重建出人们所看到的视觉图像。这个模型的出现，标志着我们离理解人类视觉感知的神经基础又近了一步。MindEye2的创新之处在于，它能够使用仅有1小时的fMRI训练数据，就能产生高质量的图像重建结果。例如，如果我们想要了解一个观看自然风景图片的... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠大型多模态模型LLaVA-UHD：能够高效地处理任意宽高比和高分辨率的图像

AI

推荐人：暴走AI 标签：LLaVA-UHD 多模态模型 AI

2年前 (2024-03-20)AI

来自清华大学、新加坡国立大学和中国科学院大学推出大型多模态模型LLaVA-UHD，它能够高效地处理任意宽高比和高分辨率的图像。在现实世界中，图像的宽高比和分辨率多种多样，这对于大型多模态模型（LMMs）在理解和处理视觉信息时提出了挑战。现有的LMMs通常只能处理固定宽高比和低分辨率的图像，这会导致图像内容的严重形变和模... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 IBM推出新型大语言模型Larimar：通过引入一个分布式的情节记忆系统来增强LLM的能力

AI

推荐人：暴走AI 标签：IBM Larimar AI

2年前 (2024-03-20)AI

IBM推出新型大语言模型Larimar，它通过引入一个分布式的情节记忆系统来增强LLM的能力。Larimar的记忆系统允许动态、一次性地更新知识，而不需要进行计算成本高昂的重新训练或微调。例如，如果我们有一个提供天气预报的AI助手，当一个新的风暴形成时，我们希望能够快速更新模型的天气预报数据。使用Larimar，我们可... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠谷歌发布“参数高效强化学习（PERL）”：通过人类反馈来高效地训练大语言模型，使其更好地符合人类的偏好

AI

推荐人：暴走AI 标签：PERL 参数高效强化学习 AI

2年前 (2024-03-20)AI

谷歌发布论文的主题是如何通过人类反馈来高效地训练大语言模型（LLMs），使其更好地符合人类的偏好。具体来说，研究者们提出了一种名为“参数高效强化学习”（Parameter Efficient Reinforcement Learning，简称PERL）的方法，该方法结合了低秩适应（Low-Rank Adaptation... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Gorilla：连接海量 API 的大语言模型

AI

推荐人：暴走AI 标签：Gorilla AI

2年前 (2024-03-20)AI

加州大学伯克利分校发布论文的主题是关于如何将大语言模型（Large Language Models，简称LLMs）适应于特定领域的检索增强生成（Retrieval Augmented Generation，简称RAG）任务。简单来说，就是研究如何让AI模型在处理特定领域的问题时，能够更准确地利用相关文档来提供答案。例如... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠谷歌推出新型机器学习架构和训练方法DiPaCo

AI

推荐人：暴走AI 标签：DiPaCo AI

2年前 (2024-03-20)AI

谷歌发布论文介绍了一个名为DiPaCo（Distributed Path Composition）的新型机器学习架构和训练方法。DiPaCo的核心思想是将大型神经网络模型分解为多个模块，这些模块可以通过路径进行分布式计算。这种方法的目的是减少在训练过程中所需的通信量，从而使得在资源有限或连接不良的计算环境中也能有效地训... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Google Research发布论文介绍了一种新技术，旨在提升视觉-语言模型（VLMs）的推理能力

AI

推荐人：暴走AI 标签：谷歌 AI

2年前 (2024-03-20)AI

Google Research发布论文介绍了一种新技术，旨在提升视觉-语言模型（VLMs）的推理能力。VLMs是一种人工智能模型，它能够理解和处理包含图像和文本的信息，例如图表、图形和图解。尽管VLMs在多模态任务上的表现越来越强，但它们的推理能力仍然有限，尤其是相对于大型语言模型（LLMs）而言。主要功能和特点： ... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠微软推出TnT-LLM框架：利用大语言模型（LLMs）来进行文本挖掘的工具

AI

推荐人：暴走AI 标签：TnT-LLM 微软 AI

2年前 (2024-03-20)AI

微软和华盛顿大学的研究团队发布TnT-LLM框架，它是一个利用大语言模型（LLMs）来进行文本挖掘的工具。文本挖掘是指从大量文本数据中提取有用信息和见解的过程，这对于数据分析和应用至关重要。想象一下，你有一个巨大的聊天记录数据库，你想理解用户在对话中的主要意图和讨论的主题。传统的方法是通过人工来标记和分类这些文本，但这... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Agent-FLAN：改进大语言模型（LLMs）作为智能代理（agents）的能力

AI

推荐人：暴走AI 标签：Agent-FLAN AI

2年前 (2024-03-20)AI

中国科学技术大学和上海人工智能实验室的研究团队推出Agent-FLAN，它旨在改进大语言模型（LLMs）作为智能代理（agents）的能力。智能代理是指能够理解环境、做出决策并采取行动的系统。尽管现有的LLMs在各种自然语言处理（NLP）任务中表现出色，但它们在作为代理时的性能仍然不如基于API的模型。Agent-F... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠阿里推出DocOwl 1.5模型：用于理解文档图像的多模态大语言模型

AI

推荐人：暴走AI 标签：DocOwl 1.5 多模态大语言模型 AI

2年前 (2024-03-20)AI

来自阿里巴巴和中国人民大学的研究团队推出DocOwl 1.5模型，它是一种用于理解文档图像的多模态大语言模型（MLLM）。DocOwl 1.5特别强调了结构信息在理解文本丰富图像（如文档、表格、图表等）中的重要性，并提出了一种统一结构学习方法来提升MLLM的性能。 GitHub地址：https://github.com... 阅读全文

直达链接好 0 不好 0 已关闭评论