语言记忆擦除ELM:从语言模型中“抹去”特定概念的知识

分类:大语言模型 | 热度:31 ℃

美国东北大学和Anthropic的研究人员发布论文,论文的主题是关于如何从语言模型中“抹去”特定概念的知识。想象一下,如果我们有一个人工智能助手,它在回答有关生物武器的问题时,我们并不希望它使用其在训练数据中学到的信息。我们希望它表现得就像从未见过这类信息一样。这就是所谓的“概念擦除”。

  • 项目主页:https://elm.baulab.info
  • GitHub:https://github.com/rohitgandikota/erasing-llm
  • 模型:https://elm.baulab.info/models/elm-wmdp

例如,我们有一个语言模型,它在回答有关生物武器的问题时,可能会使用其训练数据中学到的信息。使用ELM方法后,我们希望模型在被问到类似的问题时,能够生成接近随机的答案,就像它从未接触过这类信息一样。同时,我们希望模型在回答其他不相关问题时,比如“猫有多少条腿”,仍然能够给出准确的答案。

主要功能和特点:

无辜性(Innocence):确保模型完全忘记与特定概念相关的知识,即使直接询问,也不会透露任何信息。

无缝性(Seamlessness):编辑模型时不会损害其功能,即使在被提示生成已擦除概念的文本时,也能产生流畅、连贯的文本。

特异性(Specificity):擦除过程不影响模型在不相关概念上的性能,确保只擦除目标知识。

工作原理:

论文提出了一种名为“语言记忆擦除”(Erasure of Language Memory, ELM)的新方法。它通过以下步骤工作:

  • 目标低秩更新:调整模型的输出分布,减少与被擦除概念相关的文本生成的可能性。
  • 保留目标分布:确保在处理与被擦除概念无关的文本时,模型的预测概率保持不变。
  • 条件流畅目标:即使在提示与被擦除概念相关的内容时,也要保持文本的连贯性。

具体应用场景:

  • 生物安全:从模型中擦除有关生物武器的知识,以防止恶意使用。
  • 网络安全:擦除有关网络攻击的知识,减少潜在的网络犯罪风险。
  • 文学领域:例如,擦除有关哈利波特的知识,以进行内容的无害化处理。

总结来说,这篇论文提出了一种新的方法来精确地擦除语言模型中的特定知识,同时保持模型在其他方面的功能和流畅性。这对于创建更安全、更受控的人工智能系统非常重要。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论