微软2月22日发布了一款开源自动化框架PyRIT,这是一款Python风险识别工具包,用于帮助安全专业人士和机器学习工程师识别生成式AI系统的风险。微软的AI红队已使用该工具检查包括Copilot在内生成式AI系统中风险。PyRIT 框架的工作原理是:PyRit Agent向目标生成式AI系统发送恶意提示词,在收到生成式AI系统回应时,向PyRIT评分引擎发送回应,评分引擎将响应发送给PyRit Agent,然后Agent根据评分引擎的反馈发送新的提示词,该自动化过程一直持续到安全专家得到所需的结果为止。
官方介绍
PyRIT是AI红队为研究人员和工程师开发的一个库,用于评估大型语言模型(LLM)端点针对不同危害类别的鲁棒性,如伪造/无根据的内容(如幻觉)、滥用(如偏见)和禁止内容(如骚扰)。
PyRIT能够自动化AI红队任务,使操作人员能够将精力集中在更复杂、更耗时的任务上,并有助于识别滥用(如恶意软件生成、越狱)和隐私危害(如身份盗窃)等安全风险。
该工具的目标是使研究人员能够了解他们的模型和整个推理流程在不同危害类别下的表现,并将这些表现与模型未来的迭代版本进行比较。这使他们能够获取模型当前的性能数据,并根据未来的改进来检测性能是否有所下降。
此外,该工具还允许研究人员针对不同危害进行迭代和改进缓解措施。例如,在微软,我们利用这个工具对产品的不同版本(及其元提示)进行迭代,以更有效地防范提示注入攻击。
0条评论