AI
优惠 HyperCloning:用于加速大语言模型预训练的新策略
标签:HyperCloning
AI
4个月前 (09-20)AI
苹果推出了一个名为HyperCloning的方法,这是一种用于加速大语言模型预训练的新策略。它通过利用小型预训练模型的参数来初始化一个更大的模型,从而提高了训练效率和最终的准确性。因此,在训练开始之前,较大模型就已经继承了较小模型的预测能力和准确性。我们展示了训练这样一个初始化后的模型,在预训练大型语言模型所需的 GP... 阅读全文
优惠 大规模多模态预训练数据集 InfiMM-WebMath-40B:提升大语言模型在数学推理方面的能力
4个月前 (09-20)AI
字节跳动和中国科学院的研究人员推出大规模多模态预训练数据集 InfiMM-WebMath-40B,它旨在提升大语言模型(LLMs)在数学推理方面的能力。这个数据集特别为多模态学习环境设计,包含了图像和文本的结合,以帮助模型更好地理解和处理数学概念。 数据:https://huggingface.co/datasets/... 阅读全文