大语言模型
优惠 北京师范大学推出新型4位二阶优化器4-bit Shampoo:为了在深度神经网络(DNN)训练中实现内存高效而设计的
5个月前 (06-03)AI
北京师范大学推出一种新型的4位二阶优化器,即"4-bit Shampoo",它是为了在深度神经网络(DNN)训练中实现内存高效而设计的。在机器学习和人工智能领域,优化器是用于调整模型参数以最小化损失函数的算法。二阶优化器因其利用矩阵操作来加速收敛过程而闻名,但它们通常需要更多的内存和计算资源。虽然4-bit Shamp... 阅读全文
优惠 新型的深度学习模型架构Transformers are SSMs——Transformers和状态空间模型(State-Space Models,简称SSMs)之间的关系
5个月前 (06-03)AI
普林斯顿大学计算机科学系和卡内基梅隆大学机器学习系的研究人员推出一种新型的深度学习模型架构——Transformers和状态空间模型(State-Space Models,简称SSMs)之间的关系,并提出了一种新的架构和高效的算法。论文的标题是“Transformers are SSMs: Generalized Mo... 阅读全文