Safety Arithmetic:确保大语言模型在各种使用场景下的安全性

分类:大语言模型 | 热度:100 ℃

新加坡科技设计大学和印度理工学院 Kharagpur 分校的研究人员发布论文,论文的主题是关于如何确保大型语言模型(LLMs)在各种使用场景下的安全性。随着这些模型在翻译、问答等应用中的广泛使用,确保它们与人类价值观保持一致,不产生有害内容,变得尤为重要。通过这种方法,研究人员能够在不牺牲模型实用性的前提下,显著提高模型的安全性,减少生成有害内容的风险。这对于构建可信赖和安全的AI应用至关重要。

  • GitHub:https://github.com/declare-lab/safety-arithmetic

例如,我们有一个基础的语言模型,它能够回答各种问题,但在某些情况下可能会生成包含仇恨言论或错误信息的内容。通过应用“安全算术”框架,我们首先识别和调整那些导致模型生成有害回答的参数(HDR阶段)。接着,在Safe-Align阶段,我们通过提供一系列示例,告诉模型什么样的回答是可接受的,从而引导模型学习如何生成更安全的回答。例如,如果模型被问到一个可能引发争议的历史问题,安全算术框架可以帮助模型生成一个中立的、不带有偏见的回答,而不是可能引发冲突的回答。

主要功能:

  • 安全对齐:通过调整模型参数和激活方向,减少模型生成有害内容的风险。

主要特点:

  • 无需训练:提出了一个无需额外训练过程的框架,直接在现有模型上操作以提高安全性。
  • 适应性:适用于基础模型(BASE)、监督式微调模型(SFT)和经过知识更新的编辑模型(EDIT)。

工作原理:

  1. 有害方向去除(HDR):通过微调一个与基础模型结构相同的模型,使用包含有害问答对的数据集,生成一个有害模型。然后计算这个有害模型与基础模型之间的参数差异,选择差异最大的参数进行调整,以减少有害方向的影响。
  2. 安全对齐(Safe-Align):使用上下文示例(包括安全和不安全的提示)来调整模型的潜在空间,使其更倾向于生成安全的回答。

具体应用场景:

  • 基础模型:对未经微调的语言模型进行安全增强,以减少其生成有害内容的风险。
  • 监督式微调模型:对于那些已经被特定任务微调过的模型,通过安全对齐减少因微调而可能放大的特定偏见或有害行为。
  • 编辑模型:对经过知识更新的模型进行安全对齐,以防止由于更新干预导致的非预期安全风险。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论