华盛顿大学、艾伦人工智能研究所、首尔国立大学和卡内基梅隆大学推出自动化框架WILDTEAMING,它专门用来挖掘和测试大语言模型(LLMs)的安全性漏洞。简单来说,WILDTEAMING能够自动从真实的用户-聊天机器人交互中发现新的“越狱”(jailbreak)策略,这些策略是用户用来绕过语言模型的安全防护的技巧。然后,这个框架会将多种策略组合起来,形成更复杂和具有挑战性的攻击,以此来更深入地测试语言模型的安全性。
- GitHub:https://github.com/allenai/wildteaming
- 数据:https://huggingface.co/datasets/allenai/wildjailbreak
论文还提到了WILDJAILBREAK数据集,这是一个大规模的开源合成安全数据集,包含262K个请求-响应对,用于安全训练和评估。这个数据集旨在提供平衡的安全行为,即在不过度拒绝(over-refusal)的情况下,适当地保护模型,有效处理普通和复杂的攻击查询,并最小化对模型通用能力的影响。通过这些工作,WILDTEAMING和WILDJAILBREAK为构建更安全、更可靠的语言模型提供了重要的工具和资源。
主要功能:
- 自动挖掘:WILDTEAMING能够自动从大量用户与聊天机器人的互动中挖掘出新的越狱策略。
- 策略组合:将挖掘出的策略进行组合,形成多种攻击方式,用以测试语言模型。
- 安全评估:通过对比现有攻击方法,评估语言模型面对复杂攻击时的脆弱性。
主要特点:
- 自动化:WILDTEAMING的工作流程是自动化的,减少了人工参与,提高了效率。
- 规模化:能够处理大规模的数据集,发现数千种独特的越狱策略。
- 多样性:生成多样化的攻击,增加了测试的广度和深度。
工作原理:
- 数据收集:从真实的用户-聊天机器人交互中收集数据。
- 策略挖掘(Mine阶段):使用自动化工具,如GPT-4,来识别和分类越狱策略。
- 策略组合(Compose阶段):将不同的越狱策略组合起来,形成新的攻击方式。
- 攻击测试:使用组合策略对语言模型进行测试,评估其对越狱攻击的反应。
具体应用场景:
- 安全研究:帮助研究人员和政策制定者了解语言模型的安全漏洞。
- 模型改进:为语言模型的开发提供反馈,帮助改进模型以抵御潜在的攻击。
- 安全培训:通过创建WILDJAILBREAK数据集,提供用于安全培训的资源,以提高模型对有害输入的抵抗力。
0条评论