当前位置：首页 > 优惠 >大语言模型>文章详情

Safety Arithmetic：确保大语言模型在各种使用场景下的安全性

推荐人：暴走AI| 商城: AI | 10个月前 (06-19)| 分类：大语言模型 | 热度：227 ℃

已关闭评论

新加坡科技设计大学和印度理工学院 Kharagpur 分校的研究人员发布论文，论文的主题是关于如何确保大型语言模型（LLMs）在各种使用场景下的安全性。随着这些模型在翻译、问答等应用中的广泛使用，确保它们与人类价值观保持一致，不产生有害内容，变得尤为重要。通过这种方法，研究人员能够在不牺牲模型实用性的前提下，显著提高模型的安全性，减少生成有害内容的风险。这对于构建可信赖和安全的AI应用至关重要。

GitHub：https://github.com/declare-lab/safety-arithmetic

例如，我们有一个基础的语言模型，它能够回答各种问题，但在某些情况下可能会生成包含仇恨言论或错误信息的内容。通过应用“安全算术”框架，我们首先识别和调整那些导致模型生成有害回答的参数（HDR阶段）。接着，在Safe-Align阶段，我们通过提供一系列示例，告诉模型什么样的回答是可接受的，从而引导模型学习如何生成更安全的回答。例如，如果模型被问到一个可能引发争议的历史问题，安全算术框架可以帮助模型生成一个中立的、不带有偏见的回答，而不是可能引发冲突的回答。

主要功能：

安全对齐：通过调整模型参数和激活方向，减少模型生成有害内容的风险。

主要特点：

无需训练：提出了一个无需额外训练过程的框架，直接在现有模型上操作以提高安全性。
适应性：适用于基础模型（BASE）、监督式微调模型（SFT）和经过知识更新的编辑模型（EDIT）。

工作原理：

有害方向去除（HDR）：通过微调一个与基础模型结构相同的模型，使用包含有害问答对的数据集，生成一个有害模型。然后计算这个有害模型与基础模型之间的参数差异，选择差异最大的参数进行调整，以减少有害方向的影响。
安全对齐（Safe-Align）：使用上下文示例（包括安全和不安全的提示）来调整模型的潜在空间，使其更倾向于生成安全的回答。