当前位置：首页 > 优惠 >大语言模型>文章详情

拥有8亿参数的医疗语言模型Llama-3-Physician-8B-Instruct

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-25)| 分类：大语言模型 | 热度：152 ℃

已关闭评论

拥有8亿参数的医疗语言模型Llama-3-Physician-8B-Instruct

北京大学、香港科技大学和麻省理工学院-IBM Watson AI 实验室的研究人员推出Llama-3-Physician-8B-Instruct，这是一个拥有8亿参数的医疗语言模型。该模型是基于Llama 3构建的，并首先在RefinedWeb数据集中的高质量医学子语料库上进行持续预训练，然后用各种医学和普通指令进行调整。我们还使用了论文中的三种策略来弥合持续预训练和指令调整期间的稳定性差距，这有助于提高模型的医疗任务性能，并降低计算成本。

模型地址：https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct

持续预训练已成为适应大型语言模型（LLMs）到新领域的主要方法。这个过程涉及用来自新领域的语料库更新预训练的LLM，导致训练分布的变化。为了研究LLMs在这一变化中的行为，我们测量了模型在持续预训练过程中的性能。我们观察到，在开始时有一个短暂的性能下降，随后是一个恢复阶段，这是之前在视觉模型中识别出的“稳定性差距”现象。与此相关的严重性能下降和缓慢恢复导致了效率低下的预训练，以及知识的遗忘。为了解决这个问题，同时保持在固定计算资源下的LLM性能，我们提出了三种有效的策略：（1）使用一个合适大小的子集进行持续预训练，比在一个大的语料库上进行单次预训练有更快的性能恢复；（2）仅在高质量的子语料库上进行预训练，这可以迅速提高领域性能；（3）使用与预训练数据相似的数据混合物，以减少分配差距。

主要功能：

论文提出了三种策略来提升大型语言模型在新领域的性能。
1. 多周期小批量预训练：不是一次性用大量数据训练，而是分批次、多周期地用适量数据进行训练。
2. 只预训练高质量子集：挑选那些最能代表领域特性的高质量数据进行训练。
3. 使用与预训练数据类似的数据混合比例：保持数据分布的一致性，减少模型在学习新知识时忘记旧知识的情况。

主要特点：

这些策略特别关注于解决所谓的“稳定性差距”问题，即模型在开始学习新任务时性能会暂时下降，然后慢慢恢复的现象。
通过这些策略，可以在有限的计算资源下，快速提升模型在特定领域的性能。

工作原理：

当模型用新领域的数据进行预训练时，初期可能会因为不适应而性能下降。这就像是给助手一堆医学论文让它学习，一开始它可能会感到困惑。但是通过上述策略，可以减少这种困惑，帮助模型更快地适应新领域。
论文中提到的“稳定性差距”是指模型在学习新任务时，保持旧任务性能的能力（稳定性梯度）和学习新任务的能力（可塑性梯度）之间的差距。通过适当调整训练策略，可以平衡这两类梯度，从而减少性能波动。

具体应用场景：