拥有8亿参数的医疗语言模型Llama-3-Physician-8B-Instruct

分类:大语言模型 | 热度:16 ℃

北京大学、香港科技大学和麻省理工学院-IBM Watson AI 实验室的研究人员推出Llama-3-Physician-8B-Instruct,这是一个拥有8亿参数的医疗语言模型。该模型是基于Llama 3构建的,并首先在RefinedWeb数据集中的高质量医学子语料库上进行持续预训练,然后用各种医学和普通指令进行调整。我们还使用了论文中的三种策略来弥合持续预训练和指令调整期间的稳定性差距,这有助于提高模型的医疗任务性能,并降低计算成本。

  • 模型地址:https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct

持续预训练已成为适应大型语言模型(LLMs)到新领域的主要方法。这个过程涉及用来自新领域的语料库更新预训练的LLM,导致训练分布的变化。为了研究LLMs在这一变化中的行为,我们测量了模型在持续预训练过程中的性能。我们观察到,在开始时有一个短暂的性能下降,随后是一个恢复阶段,这是之前在视觉模型中识别出的“稳定性差距”现象。与此相关的严重性能下降和缓慢恢复导致了效率低下的预训练,以及知识的遗忘。为了解决这个问题,同时保持在固定计算资源下的LLM性能,我们提出了三种有效的策略:(1)使用一个合适大小的子集进行持续预训练,比在一个大的语料库上进行单次预训练有更快的性能恢复;(2)仅在高质量的子语料库上进行预训练,这可以迅速提高领域性能;(3)使用与预训练数据相似的数据混合物,以减少分配差距。

主要功能

  • 论文提出了三种策略来提升大型语言模型在新领域的性能。
    1. 多周期小批量预训练:不是一次性用大量数据训练,而是分批次、多周期地用适量数据进行训练。
    2. 只预训练高质量子集:挑选那些最能代表领域特性的高质量数据进行训练。
    3. 使用与预训练数据类似的数据混合比例:保持数据分布的一致性,减少模型在学习新知识时忘记旧知识的情况。

主要特点

  • 这些策略特别关注于解决所谓的“稳定性差距”问题,即模型在开始学习新任务时性能会暂时下降,然后慢慢恢复的现象。
  • 通过这些策略,可以在有限的计算资源下,快速提升模型在特定领域的性能。

工作原理

  • 当模型用新领域的数据进行预训练时,初期可能会因为不适应而性能下降。这就像是给助手一堆医学论文让它学习,一开始它可能会感到困惑。但是通过上述策略,可以减少这种困惑,帮助模型更快地适应新领域。
  • 论文中提到的“稳定性差距”是指模型在学习新任务时,保持旧任务性能的能力(稳定性梯度)和学习新任务的能力(可塑性梯度)之间的差距。通过适当调整训练策略,可以平衡这两类梯度,从而减少性能波动。

具体应用场景

  • 论文中以医学领域为例,进行了实验验证。例如,通过持续预训练,可以提高模型在医学问答、医学文献分析等任务上的性能。
  • 这些策略可以应用于任何需要模型快速适应新领域的场合,比如法律、金融分析等专业领域。

简而言之,这篇论文就是教我们如何让一个已经非常聪明的AI助手,通过一些巧妙的训练方法,更快地成为某个新领域的专家。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论