大语言模型

优惠 新型神经网络训练方法——热力学自然梯度下降(TNGD)

  • 新型神经网络训练方法——热力学自然梯度下降(TNGD)
    AI
  • Normal Computing推出一种新型的神经网络训练方法——热力学自然梯度下降(Thermodynamic Natural Gradient Descent,简称TNGD)。这种方法试图解决大规模神经网络训练中的一个主要问题:计算效率。通常,第二梯度方法(考虑了损失函数曲面的曲率信息)在理论上具有更好的收敛性,但... 阅读全文

    优惠 分布式推测推理DSI:加速大语言模型的推理过程

  • 分布式推测推理DSI:加速大语言模型的推理过程
    AI
  • 魏茨曼科学研究所、英特尔实验室和麻省理工学院的研究人员发布论文,论文的主题是关于如何加速大语言模型(LLMs)的推理过程。在AI领域,尤其是在需要实时应用的场景中,比如股票交易算法或自动驾驶车辆中,快速准确地进行语言模型推理是一个重要挑战。这篇论文介绍了一种新颖的分布式推理算法——分布式推测推理(Distributed... 阅读全文

    优惠 新型多模态大语言模型AlignGPT:提升模型对视觉和语言信息之间对齐能力的理解

  • 新型多模态大语言模型AlignGPT:提升模型对视觉和语言信息之间对齐能力的理解
    AI
  • 南京大学研究人员推出新型多模态大语言模型AlignGPT,它特别关注于提升模型对视觉和语言信息之间对齐能力的理解。简单来说,AlignGPT就像是一个超级学霸,它不仅能看懂图片,还能理解文字,并且能把这两者关联起来,给出非常聪明的回答。例如,你给AlignGPT一张蛋糕的图片,并问它“蛋糕上有多少颗草莓?”,Align... 阅读全文

    优惠 基于 Ray、DeepSpeed 和 HF Transformers 构建的高性能 RLHF 框架OpenRLHF

  • 基于 Ray、DeepSpeed 和 HF Transformers 构建的高性能 RLHF 框架OpenRLHF
    AI
  • OpenLLMAI 团队推出基于 Ray、DeepSpeed 和 HF Transformers 构建的高性能 RLHF 框架OpenRLHF,它是一个用于训练大语言模型(LLM)的高效、可扩展且高性能的强化学习从人类反馈(RLHF)框架。RLHF是一种通过人类反馈来指导机器学习模型的训练方法,它在大型语言模型的训练中... 阅读全文

    优惠 华为推出高效Transformer模型SLAB,旨在解决传统Transformer架构在资源受限设备上部署时面临的高计算成本问题

  • 华为推出高效Transformer模型SLAB,旨在解决传统Transformer架构在资源受限设备上部署时面临的高计算成本问题
    AI
  • 华为推出高效Transformer模型SLAB,旨在解决传统Transformer架构在资源受限设备上部署时面临的高计算成本问题。通过改进模型的注意力机制和归一化层,SLAB能够在保持性能的同时减少计算量和提高运行速度。例如,我们需要在一个移动设备上部署一个图像分类模型,该设备计算资源有限。使用传统的Transform... 阅读全文

    优惠 轻量级大型多模态模型Imp:为移动设备等资源受限的场景提供强大的AI能力

  • 轻量级大型多模态模型Imp:为移动设备等资源受限的场景提供强大的AI能力
    AI
  • 杭州电子科技大学推出轻量级大型多模态模型Imp,它旨在为移动设备等资源受限的场景提供强大的人工智能能力。Imp模型利用了大语言模型(LLMs)的能力,通过系统的研究和优化,在保持模型规模较小(例如2B到4B参数)的同时,实现了与更大模型相媲美的性能。例如,你正在开发一个移动应用程序,该应用程序需要帮助用户识别植物并提供... 阅读全文

    优惠 用于大语言模型的高效微调新方法MoRA

  • 用于大语言模型的高效微调新方法MoRA
    AI
  • 来自北京航空航天大学和微软的研究人员推出一种新的高效微调(Fine-tuning)方法MoRA,用于大语言模型(LLMs)。微调是一种技术,可以让已经预训练好的模型适应特定的下游任务,而MoRA旨在以更少的参数实现这一过程,从而提高效率。例如,我们有一个已经预训练好的大型语言模型,现在需要让它能够更好地处理金融领域的文... 阅读全文

    优惠 新型强化学习智能体DIAMOND:在一个基于扩散模型的世界模型中接受训练

  • 新型强化学习智能体DIAMOND:在一个基于扩散模型的世界模型中接受训练
    AI
  • 爱丁堡大学、微软研究院、日内瓦大学的研究人员推出新型强化学习(Reinforcement Learning, RL)智能体DIAMOND(DIffusion As a Model Of eNvironment Dreams),它在一个基于扩散模型的世界模型中接受训练。扩散模型是一种用于图像生成的先进方法,它通过学习逆向... 阅读全文

    优惠 如何减少Transformer模型中关键值(Key-Value,KV)缓存的大小

  • 如何减少Transformer模型中关键值(Key-Value,KV)缓存的大小
    AI
  • MIT的研究人员发布论文,主题是关于如何减少Transformer模型中关键值(Key-Value,KV)缓存的大小。Transformer模型是当前自然语言处理(NLP)领域非常流行的一种模型,它在处理大语言模型(LLMs)时,解码速度很快,但需要大量的内存来存储KV缓存,这在处理长序列和大批量数据时尤其成问题。 主... 阅读全文

    优惠 百川智能发布新一代大模型Baichuan 4及AI助手“百小应”

  • 百川智能发布新一代大模型Baichuan 4及AI助手“百小应”
    AI
  • 今日,百川智能正式推出了最新一代基座大模型Baichuan 4。与前一代Baichuan 3相比,Baichuan 4在各项能力上均有显著提升,通用能力提升超过10%,数学和代码能力分别提升了14%和9%。在国内知名大模型评测机构SuperCLUE的评测中,Baichuan 4的模型能力位居国内第一。Baichuan ... 阅读全文

    优惠 微软Build 2024开发者大会发布Phi-3-vision模型,可在小型设备上运行

  • 微软Build 2024开发者大会发布Phi-3-vision模型,可在小型设备上运行
    AI
  • 在微软Build 2024开发者大会上,微软公布了Phi-3-vision模型,它小巧到足以在手机上执行,同时具备出色的视觉能力,能够理解文字和图片。Phi-3-vision是4月公布的Phi-3模型家族的最新成员,拥有42亿参数,介于Phi-3-mini(3.8亿)和Phi-3-small(7亿)之间。作为Phi-3... 阅读全文

    优惠 腾讯优图研究团队发布论文总结了小参数的多模态模型的发展历程

  • 腾讯优图研究团队发布论文总结了小参数的多模态模型的发展历程
    AI
  • 腾讯优图研究团队发布论文总结了小参数的多模态模型的发展历程,多模态大型语言模型结合了视觉和语言处理的能力,在诸如视觉问答、视觉理解和推理等任务中表现出色。但是,这些模型往往因为模型体积庞大、训练和推理成本高昂,限制了它们在学术界和工业界的广泛应用。因此,研究高效且轻量级的MLLMs具有巨大潜力,尤其是在边缘计算场景中。... 阅读全文