新加坡科技设计大学和印度理工学院 Kharagpur 分校的研究人员发布论文,论文的主题是关于如何确保大型语言模型(LLMs)在各种使用场景下的安全性。随着这些模型在翻译、问答等应用中的广泛使用,确保它们与人类价值观保持一致,不产生有害内容,变得尤为重要。通过这种方法,研究人员能够在不牺牲模型实用性的前提下,显著提高模型的安全性,减少生成有害内容的风险。这对于构建可信赖和安全的AI应用至关重要。
- GitHub:https://github.com/declare-lab/safety-arithmetic
例如,我们有一个基础的语言模型,它能够回答各种问题,但在某些情况下可能会生成包含仇恨言论或错误信息的内容。通过应用“安全算术”框架,我们首先识别和调整那些导致模型生成有害回答的参数(HDR阶段)。接着,在Safe-Align阶段,我们通过提供一系列示例,告诉模型什么样的回答是可接受的,从而引导模型学习如何生成更安全的回答。例如,如果模型被问到一个可能引发争议的历史问题,安全算术框架可以帮助模型生成一个中立的、不带有偏见的回答,而不是可能引发冲突的回答。
主要功能:
- 安全对齐:通过调整模型参数和激活方向,减少模型生成有害内容的风险。
主要特点:
- 无需训练:提出了一个无需额外训练过程的框架,直接在现有模型上操作以提高安全性。
- 适应性:适用于基础模型(BASE)、监督式微调模型(SFT)和经过知识更新的编辑模型(EDIT)。
工作原理:
- 有害方向去除(HDR):通过微调一个与基础模型结构相同的模型,使用包含有害问答对的数据集,生成一个有害模型。然后计算这个有害模型与基础模型之间的参数差异,选择差异最大的参数进行调整,以减少有害方向的影响。
- 安全对齐(Safe-Align):使用上下文示例(包括安全和不安全的提示)来调整模型的潜在空间,使其更倾向于生成安全的回答。
具体应用场景:
- 基础模型:对未经微调的语言模型进行安全增强,以减少其生成有害内容的风险。
- 监督式微调模型:对于那些已经被特定任务微调过的模型,通过安全对齐减少因微调而可能放大的特定偏见或有害行为。
- 编辑模型:对经过知识更新的模型进行安全对齐,以防止由于更新干预导致的非预期安全风险。
0条评论