大语言模型
优惠 北京师范大学推出新型4位二阶优化器4-bit Shampoo:为了在深度神经网络(DNN)训练中实现内存高效而设计的
4个月前 (06-03)AI
北京师范大学推出一种新型的4位二阶优化器,即"4-bit Shampoo",它是为了在深度神经网络(DNN)训练中实现内存高效而设计的。在机器学习和人工智能领域,优化器是用于调整模型参数以最小化损失函数的算法。二阶优化器因其利用矩阵操作来加速收敛过程而闻名,但它们通常需要更多的内存和计算资源。虽然4-bit Shamp... 阅读全文
优惠 新型的深度学习模型架构Transformers are SSMs——Transformers和状态空间模型(State-Space Models,简称SSMs)之间的关系
4个月前 (06-03)AI
普林斯顿大学计算机科学系和卡内基梅隆大学机器学习系的研究人员推出一种新型的深度学习模型架构——Transformers和状态空间模型(State-Space Models,简称SSMs)之间的关系,并提出了一种新的架构和高效的算法。论文的标题是“Transformers are SSMs: Generalized Mo... 阅读全文
优惠 浪潮信息推出开源MoE模型Yuan 2.0-M32:基于Yuan 2.0-2B的一个变体,采用了一种特殊的架构,其中包含32个专家网络,但每次只有2个专家被激活
4个月前 (06-01)AI
浪潮信息推出新型混合专家(Mixture of Experts,简称MoE)语言模型Yuan 2.0-M32,这个模型是基于Yuan 2.0-2B的一个变体,采用了一种特殊的架构,其中包含32个专家网络,但每次只有2个专家被激活。这种设计旨在提高模型的计算效率和准确性。实验结果表明,Yuan 2.0-M32在上述应用场... 阅读全文