优惠 SoM-LLaVA：提高多模态大语言模型视觉理解能力的新方法，它通过在图像上添加带标签的标记（tags）来增强模型将视觉对象与文本标记关联的能力

AI

推荐人：暴走AI 标签：list items one by one SoM-LLaVA AI

1年前 (2024-04-27)AI

加州大学圣地亚哥分校、微软公司、加州大学圣巴巴拉分校的研究人员推出list items one by one，这是一种提高多模态大语言模型视觉理解能力的新方法，它通过在图像上添加带标签的标记（tags）来增强模型将视觉对象与文本标记关联的能力。例如，我们有一张包含笔记本电脑、椅子、显示器和台灯的办公室照片。使用SoM提... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠阿里巴巴发布了首个千亿参数的大模型 Qwen1.5-110B

AI

推荐人：暴走AI 标签：Qwen1.5-110B AI

1年前 (2024-04-27)AI

阿里巴巴发布了首个千亿参数的大模型 Qwen1.5-110B。此前它发布了 0.5B、1.8B、4B、7B、14B 和 72B 不同规模参数的版本。阿里巴巴称，Qwen1.5-110B 模型在基础能力评估中与 Meta-Llama3-70B 相媲美，在 Chat 评估中表现出色，包括 MT-Bench 和 Alpaca... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 MH-MoE：稀疏混合专家（SMoE）模型的改进版本

AI

推荐人：暴走AI 标签：MH-MoE AI

1年前 (2024-04-24)AI

新型模型“Multi-Head Mixture-of-Experts”（MH-MoE），它是一种稀疏混合专家（Sparse Mixtures of Experts，简称SMoE）模型的改进版本。SMoE模型通过在每个构建模块中包含多个并行前馈神经网络（即专家），并通过路由器有策略地激活特定输入令牌的特定专家，从而在保持... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态语言模型Pegasus-1，它专门设计用于理解和交互视频内容，并通过自然语言进行交流

AI

推荐人：暴走AI 标签：Pegasus-1 AI

1年前 (2024-04-24)AI

多模态语言模型Pegasus-1，它专门设计用于理解和交互视频内容，并通过自然语言进行交流。Pegasus-1旨在解决视频数据的独特挑战，例如解释时空信息，以提供对不同长度视频内容的深入理解。Pegasus-1的局限性，包括处理长视频的效率、可能出现的“幻觉”现象、安全和偏见问题，以及未来将增加的聊天功能等。例如，我... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Transformer语言模型能够表示n-gram语言模型

AI

推荐人：暴走AI 标签：n-gram Transformer Transformer语言模型 AI

1年前 (2024-04-24)AI

苏黎世联邦理工学院的研究人员发布论探讨和证明Transformer语言模型能够表示n-gram语言模型。n-gram语言模型是一种基于统计的语言模型，它根据前面的n-1个词来预测下一个词的概率。Transformer语言模型是一种基于深度学习的先进语言模型，广泛应用于自然语言处理任务中。例如，我们有一个4-gram语言... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠苹果推出新型大型开放语言模型OpenELM：提高自然语言处理领域的研究透明度和可复现性

AI

推荐人：暴走AI 标签：OpenELM 苹果 AI

1年前 (2024-04-24)AI

苹果推出新型大型开放语言模型OpenELM，它旨在提高自然语言处理领域的研究透明度和可复现性，确保研究结果的可靠性，并允许对数据和模型偏见以及潜在风险进行调查。例如，你想要开发一个能够自动生成新闻文章摘要的系统。使用OpenELM，你可以对模型进行微调，使它能够理解新闻文章的关键信息，并生成简洁准确的摘要。由于Open... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新技术SnapKV：解决大语言模型在处理长文本输入时遇到的性能和内存效率问题

AI

推荐人：暴走AI 标签：SnapKV 大语言模型 AI

1年前 (2024-04-24)

伊利诺伊大学厄巴纳-香槟分校、Cohere 和普林斯顿大学的研究人员推出新技术SnapKV，，它是为了解决大语言模型（LLMs）在处理长文本输入时遇到的性能和内存效率问题。大型语言模型在生成文本时，会使用一种名为“键值（KV）缓存”的技术来提高性能，但随着输入长度的增加，KV缓存的大小也会增长，这会导致内存和时间效率问... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠微软推出新型语言模型phi-3-mini：3.8亿参数，可在手机上运行

AI

推荐人：暴走AI 标签：phi-3-mini AI

1年前 (2024-04-23)AI

微软推出新型语言模型phi-3-mini，这是一个具有3.8亿参数的模型，它在性能上可以与一些大型模型相媲美，如Mixtral 8x7B和GPT-3.5，但大小却足以部署在手机上。这项技术的创新之处在于其训练数据集，这是phi-2数据集的一个扩展版本，包含了大量过滤过的网络数据和合成数据。例如。你有一个智能手机，上面安... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 MAIA：利用神经模型来自动化理解其他神经模型任务的系统，比如特征解释和故障模式发现

AI

推荐人：暴走AI 标签：Maia AI

1年前 (2024-04-23)AI

麻省理工学院计算机科学与人工智能实验室推出MAIA（Multimodal Automated Interpretability Agent，多模态自动可解释性代理）系统，MAIA是一个利用神经模型来自动化理解其他神经模型任务的系统，比如特征解释和故障模式发现。简而言之，MAIA就是一个能够“解释”神经网络的智能代理。 ... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠摩根大通人工智能研究推出FlowMind，利用大语言模型自动生成金融服务业工作流程

AI

推荐人：暴走AI 标签：FlowMind AI

1年前 (2024-04-23)AI

摩根大通人工智能研究推出FlowMind，它能够利用大语言模型自动生成工作流程。在许多行业中，尤其是金融服务业，自动化重复性任务已经取得了显著进展，但在处理需要即时或不可预测任务的场景中，传统的自动化方法可能就不够有效。FlowMind通过使用像GPT这样的大语言模型，来创建一个能够自动生成工作流程的系统，以应对这些挑... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 LLaMA3-Quantization：采用低比特权量化压缩LLAMA3模型大小，减少内存和计算需求，使模型能够在资源受限的设备上运行

AI

推荐人：暴走AI 标签：LLaMA3-Quantization AI

1年前 (2024-04-23)AI

由香港大学、北京航空航天大学和苏黎世联邦理工学院的研究人员推出LLaMA3-Quantization，其采用低比特权量化（low-bit quantization）压缩LLAMA3模型大小，减少内存和计算需求，使模型能够在资源受限的设备上运行。LLAMA3是Meta公司发布的一种大语言模型，它在大量数据上进行了预训练，... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 OpenAI发布论文：探讨如何提高大语言模型安全性

AI

推荐人：暴走AI 标签：OpenAI AI

1年前 (2024-04-23)AI

OpenAI发布关于如何提高大语言模型安全性的论文，特别是针对提示注入（prompt injections）、越狱（jailbreaks）和其他攻击手段，这些攻击可能允许攻击者覆盖模型的原始指令，执行恶意操作。研究者们提出了一个“指令层级”（instruction hierarchy）的概念，旨在训练LLMs区分不同优... 阅读全文

直达链接好 0 不好 0 已关闭评论