当前位置：首页 > 优惠 >大语言模型>文章详情

ReMiss：大语言模型在经过安全和可靠性训练后，为何仍然容易受到敌意攻击

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-24)| 分类：大语言模型 | 热度：291 ℃

已关闭评论

ReMiss：大语言模型在经过安全和可靠性训练后，为何仍然容易受到敌意攻击

AI

香港大学和华为诺亚方舟实验室的研究人员发布论文，论文的主题是探讨大语言模型（LLMs）在经过安全和可靠性训练（alignment）后，为何仍然容易受到敌意攻击（adversarial attacks），特别是所谓的“越狱”（jailbreaking）现象。越狱指的是LLMs在面对精心设计的提示时，会违反预设的限制，生成不当的输出。论文提出了一个新的视角，将这种脆弱性归因于在训练过程中的奖励错误指定（reward misspecification）。

例如，你有一个智能助手，它可以回答各种问题，但你希望它在回答问题时不会提供有害或不安全的信息。为了让助手遵守这些规则，你可能会对它进行一些训练，让它在提供帮助的同时避免提供不当内容。然而，如果有人发现了训练过程中的漏洞，他们可能会提出一些特别的问题，诱使助手违反规则，比如提供制造假身份证的方法。这就是所谓的“越狱”。

主要功能：

奖励错误量化：提出了一个新的度量标准ReGap，用于量化奖励错误指定的程度。
自动化红队系统：开发了一个名为ReMiss的系统，它能够自动生成对抗性提示（adversarial prompts），针对各种经过安全训练的LLMs。

主要特点：

检测有害后门提示：ReGap度量标准能够有效检测出有害的后门提示，这些提示可以诱使LLMs生成有害响应。
保持人类可读性：ReMiss生成的对抗性提示在保持人类可读性的同时，实现了高攻击成功率。

工作原理：

奖励模型：将经过安全训练的LLMs视为隐含的奖励模型，通过比较不同响应的奖励来识别错误指定。
ReGap度量：通过计算对无害响应和有害响应的隐含奖励之间的差异，来量化奖励错误指定的程度。
对抗性提示生成：ReMiss利用奖励错误指定的漏洞，通过迭代优化方法生成能够诱使LLMs生成有害响应的对抗性提示。

具体应用场景：

安全审计：使用ReMiss对LLMs进行安全审计，检测和评估模型的脆弱性。
自动化红队测试：在开发LLMs时，利用ReMiss作为自动化的红队工具，以确保模型在面对潜在的敌意攻击时的安全性和可靠性。

论文还讨论了ReMiss的局限性，例如它依赖于能够访问一个白盒参考模型来计算隐含奖励。此外，论文强调了这项研究的伦理考量，指出虽然ReMiss可以用于识别和利用LLMs的脆弱性，但其核心目的是提高现有安全对齐方法的安全性和可靠性，并强调需要优先考虑和实施缓解策略。

ReMiss 越狱

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：如何将检索增强型生成（RAG）应用于大型视频库，以提高视频内容的检索和再利用效率

下一篇：如何提升语言模型在规划任务中的性能，特别是那些需要多步骤模拟的复杂规划任务

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录