自动化框架WILDTEAMING:专门用来挖掘和测试大语言模型的安全性漏洞

分类:大语言模型 | 热度:35 ℃

华盛顿大学、艾伦人工智能研究所、首尔国立大学和卡内基梅隆大学推出自动化框架WILDTEAMING,它专门用来挖掘和测试大语言模型(LLMs)的安全性漏洞。简单来说,WILDTEAMING能够自动从真实的用户-聊天机器人交互中发现新的“越狱”(jailbreak)策略,这些策略是用户用来绕过语言模型的安全防护的技巧。然后,这个框架会将多种策略组合起来,形成更复杂和具有挑战性的攻击,以此来更深入地测试语言模型的安全性。

  • GitHub:https://github.com/allenai/wildteaming
  • 数据:https://huggingface.co/datasets/allenai/wildjailbreak

论文还提到了WILDJAILBREAK数据集,这是一个大规模的开源合成安全数据集,包含262K个请求-响应对,用于安全训练和评估。这个数据集旨在提供平衡的安全行为,即在不过度拒绝(over-refusal)的情况下,适当地保护模型,有效处理普通和复杂的攻击查询,并最小化对模型通用能力的影响。通过这些工作,WILDTEAMING和WILDJAILBREAK为构建更安全、更可靠的语言模型提供了重要的工具和资源。

主要功能

  1. 自动挖掘:WILDTEAMING能够自动从大量用户与聊天机器人的互动中挖掘出新的越狱策略。
  2. 策略组合:将挖掘出的策略进行组合,形成多种攻击方式,用以测试语言模型。
  3. 安全评估:通过对比现有攻击方法,评估语言模型面对复杂攻击时的脆弱性。

主要特点

  • 自动化:WILDTEAMING的工作流程是自动化的,减少了人工参与,提高了效率。
  • 规模化:能够处理大规模的数据集,发现数千种独特的越狱策略。
  • 多样性:生成多样化的攻击,增加了测试的广度和深度。

工作原理

  1. 数据收集:从真实的用户-聊天机器人交互中收集数据。
  2. 策略挖掘(Mine阶段):使用自动化工具,如GPT-4,来识别和分类越狱策略。
  3. 策略组合(Compose阶段):将不同的越狱策略组合起来,形成新的攻击方式。
  4. 攻击测试:使用组合策略对语言模型进行测试,评估其对越狱攻击的反应。

具体应用场景

  • 安全研究:帮助研究人员和政策制定者了解语言模型的安全漏洞。
  • 模型改进:为语言模型的开发提供反馈,帮助改进模型以抵御潜在的攻击。
  • 安全培训:通过创建WILDJAILBREAK数据集,提供用于安全培训的资源,以提高模型对有害输入的抵抗力。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论