当前位置：首页 > 优惠 >大语言模型>文章详情

自动化框架WILDTEAMING：专门用来挖掘和测试大语言模型的安全性漏洞

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-29)| 分类：大语言模型 | 热度：223 ℃

已关闭评论

自动化框架WILDTEAMING：专门用来挖掘和测试大语言模型的安全性漏洞

AI

华盛顿大学、艾伦人工智能研究所、首尔国立大学和卡内基梅隆大学推出自动化框架WILDTEAMING，它专门用来挖掘和测试大语言模型（LLMs）的安全性漏洞。简单来说，WILDTEAMING能够自动从真实的用户-聊天机器人交互中发现新的“越狱”（jailbreak）策略，这些策略是用户用来绕过语言模型的安全防护的技巧。然后，这个框架会将多种策略组合起来，形成更复杂和具有挑战性的攻击，以此来更深入地测试语言模型的安全性。

GitHub：https://github.com/allenai/wildteaming
数据：https://huggingface.co/datasets/allenai/wildjailbreak

论文还提到了WILDJAILBREAK数据集，这是一个大规模的开源合成安全数据集，包含262K个请求-响应对，用于安全训练和评估。这个数据集旨在提供平衡的安全行为，即在不过度拒绝（over-refusal）的情况下，适当地保护模型，有效处理普通和复杂的攻击查询，并最小化对模型通用能力的影响。通过这些工作，WILDTEAMING和WILDJAILBREAK为构建更安全、更可靠的语言模型提供了重要的工具和资源。

主要功能：

自动挖掘：WILDTEAMING能够自动从大量用户与聊天机器人的互动中挖掘出新的越狱策略。
策略组合：将挖掘出的策略进行组合，形成多种攻击方式，用以测试语言模型。
安全评估：通过对比现有攻击方法，评估语言模型面对复杂攻击时的脆弱性。

主要特点：

自动化：WILDTEAMING的工作流程是自动化的，减少了人工参与，提高了效率。
规模化：能够处理大规模的数据集，发现数千种独特的越狱策略。
多样性：生成多样化的攻击，增加了测试的广度和深度。

工作原理：

数据收集：从真实的用户-聊天机器人交互中收集数据。
策略挖掘（Mine阶段）：使用自动化工具，如GPT-4，来识别和分类越狱策略。
策略组合（Compose阶段）：将不同的越狱策略组合起来，形成新的攻击方式。
攻击测试：使用组合策略对语言模型进行测试，评估其对越狱攻击的反应。

具体应用场景：

安全研究：帮助研究人员和政策制定者了解语言模型的安全漏洞。
模型改进：为语言模型的开发提供反馈，帮助改进模型以抵御潜在的攻击。
安全培训：通过创建WILDJAILBREAK数据集，提供用于安全培训的资源，以提高模型对有害输入的抵抗力。

WILDTEAMING 大语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：新型大语言模型基准测试工具LiveBench：克服现有基准测试中常见的问题，如测试数据集污染（即新模型训练时不小心包含了测试集中的数据）以及评判过程中的偏见和错误

下一篇：新型优化器Adam-mini：可以将优化器想象成一位老师，它指导模型在大量数据中找到正确的答案

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录