优惠新型神经网络训练方法——热力学自然梯度下降（TNGD）

AI

推荐人：暴走AI 标签：TNGD 神经网络训练 AI

11个月前 (05-24)AI

Normal Computing推出一种新型的神经网络训练方法——热力学自然梯度下降（Thermodynamic Natural Gradient Descent，简称TNGD）。这种方法试图解决大规模神经网络训练中的一个主要问题：计算效率。通常，第二梯度方法（考虑了损失函数曲面的曲率信息）在理论上具有更好的收敛性，但... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠分布式推测推理DSI：加速大语言模型的推理过程

AI

推荐人：暴走AI 标签：DSI 分布式推测推理 AI

11个月前 (05-24)AI

魏茨曼科学研究所、英特尔实验室和麻省理工学院的研究人员发布论文，论文的主题是关于如何加速大语言模型（LLMs）的推理过程。在AI领域，尤其是在需要实时应用的场景中，比如股票交易算法或自动驾驶车辆中，快速准确地进行语言模型推理是一个重要挑战。这篇论文介绍了一种新颖的分布式推理算法——分布式推测推理（Distributed... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型多模态大语言模型AlignGPT：提升模型对视觉和语言信息之间对齐能力的理解

AI

推荐人：暴走AI 标签：AlignGPT 多模态大语言模型 AI

11个月前 (05-24)AI

南京大学研究人员推出新型多模态大语言模型AlignGPT，它特别关注于提升模型对视觉和语言信息之间对齐能力的理解。简单来说，AlignGPT就像是一个超级学霸，它不仅能看懂图片，还能理解文字，并且能把这两者关联起来，给出非常聪明的回答。例如，你给AlignGPT一张蛋糕的图片，并问它“蛋糕上有多少颗草莓？”，Align... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠基于 Ray、DeepSpeed 和 HF Transformers 构建的高性能 RLHF 框架OpenRLHF

AI

推荐人：暴走AI 标签：OpenRLHF AI

11个月前 (05-22)AI

OpenLLMAI 团队推出基于 Ray、DeepSpeed 和 HF Transformers 构建的高性能 RLHF 框架OpenRLHF，它是一个用于训练大语言模型（LLM）的高效、可扩展且高性能的强化学习从人类反馈（RLHF）框架。RLHF是一种通过人类反馈来指导机器学习模型的训练方法，它在大型语言模型的训练中... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠华为推出高效Transformer模型SLAB，旨在解决传统Transformer架构在资源受限设备上部署时面临的高计算成本问题

AI

推荐人：暴走AI 标签：SLAB AI

11个月前 (05-22)AI

华为推出高效Transformer模型SLAB，旨在解决传统Transformer架构在资源受限设备上部署时面临的高计算成本问题。通过改进模型的注意力机制和归一化层，SLAB能够在保持性能的同时减少计算量和提高运行速度。例如，我们需要在一个移动设备上部署一个图像分类模型，该设备计算资源有限。使用传统的Transform... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠轻量级大型多模态模型Imp：为移动设备等资源受限的场景提供强大的AI能力

AI

推荐人：暴走AI 标签：Imp 多模态模型 AI

11个月前 (05-22)AI

杭州电子科技大学推出轻量级大型多模态模型Imp，它旨在为移动设备等资源受限的场景提供强大的人工智能能力。Imp模型利用了大语言模型（LLMs）的能力，通过系统的研究和优化，在保持模型规模较小（例如2B到4B参数）的同时，实现了与更大模型相媲美的性能。例如，你正在开发一个移动应用程序，该应用程序需要帮助用户识别植物并提供... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠用于大语言模型的高效微调新方法MoRA

AI

推荐人：暴走AI 标签：MoRA AI

11个月前 (05-22)AI

来自北京航空航天大学和微软的研究人员推出一种新的高效微调（Fine-tuning）方法MoRA，用于大语言模型（LLMs）。微调是一种技术，可以让已经预训练好的模型适应特定的下游任务，而MoRA旨在以更少的参数实现这一过程，从而提高效率。例如，我们有一个已经预训练好的大型语言模型，现在需要让它能够更好地处理金融领域的文... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型强化学习智能体DIAMOND：在一个基于扩散模型的世界模型中接受训练

AI

推荐人：暴走AI 标签：DIAMOND AI

11个月前 (05-22)AI

爱丁堡大学、微软研究院、日内瓦大学的研究人员推出新型强化学习（Reinforcement Learning, RL）智能体DIAMOND（DIffusion As a Model Of eNvironment Dreams），它在一个基于扩散模型的世界模型中接受训练。扩散模型是一种用于图像生成的先进方法，它通过学习逆向... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠如何减少Transformer模型中关键值（Key-Value，KV）缓存的大小

AI

推荐人：暴走AI 标签：Transformer模型 AI

11个月前 (05-22)AI

MIT的研究人员发布论文，主题是关于如何减少Transformer模型中关键值（Key-Value，KV）缓存的大小。Transformer模型是当前自然语言处理（NLP）领域非常流行的一种模型，它在处理大语言模型（LLMs）时，解码速度很快，但需要大量的内存来存储KV缓存，这在处理长序列和大批量数据时尤其成问题。主... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠百川智能发布新一代大模型Baichuan 4及AI助手“百小应”

AI

推荐人：暴走AI 标签：Baichuan 4 百小应百川智能 AI

11个月前 (05-22)AI

今日，百川智能正式推出了最新一代基座大模型Baichuan 4。与前一代Baichuan 3相比，Baichuan 4在各项能力上均有显著提升，通用能力提升超过10%，数学和代码能力分别提升了14%和9%。在国内知名大模型评测机构SuperCLUE的评测中，Baichuan 4的模型能力位居国内第一。Baichuan ... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠微软Build 2024开发者大会发布Phi-3-vision模型，可在小型设备上运行

AI

推荐人：暴走AI 标签：Phi-3-vision 微软 AI

11个月前 (05-22)AI

在微软Build 2024开发者大会上，微软公布了Phi-3-vision模型，它小巧到足以在手机上执行，同时具备出色的视觉能力，能够理解文字和图片。Phi-3-vision是4月公布的Phi-3模型家族的最新成员，拥有42亿参数，介于Phi-3-mini（3.8亿）和Phi-3-small（7亿）之间。作为Phi-3... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠腾讯优图研究团队发布论文总结了小参数的多模态模型的发展历程

AI

推荐人：暴走AI 标签：腾讯优图 AI

11个月前 (05-20)AI

腾讯优图研究团队发布论文总结了小参数的多模态模型的发展历程，多模态大型语言模型结合了视觉和语言处理的能力，在诸如视觉问答、视觉理解和推理等任务中表现出色。但是，这些模型往往因为模型体积庞大、训练和推理成本高昂，限制了它们在学术界和工业界的广泛应用。因此，研究高效且轻量级的MLLMs具有巨大潜力，尤其是在边缘计算场景中。... 阅读全文

直达链接好 0 不好 0 已关闭评论