谷歌发布论文介绍一种新型的模型窃取攻击,它能够从未公开的黑盒生产语言模型(例如OpenAI的ChatGPT或Google的PaLM-2)中提取精确、非平凡的信息。具体来说,攻击者可以通过典型的API访问,恢复变换模型的嵌入投影层(直到对称性)。这项技术首次证实了这些黑盒模型具有1024和2048的隐藏维度。总的来说,这篇论文展示了一种从黑盒语言模型中提取关键信息的攻击方法,这对于理解大型语言模型的安全性和设计更好的保护措施具有重要意义。
主要功能和特点:
- 模型窃取: 攻击者可以获取大型语言模型的关键部分,即嵌入投影层,而无需访问模型的全部权重。
- 低成本: 攻击的成本很低,论文中提到,提取OpenAI的ada和babbage语言模型的整个投影矩阵的成本不到20美元。
- 高效性: 攻击是有效的,并且可以高效地应用于生产模型,这些模型的API暴露了完整的logprobs或“logit偏差”。
工作原理:
- 查询API: 攻击者通过向模型的API发送查询来获取信息。
- 利用对称性: 攻击利用了语言模型最后一层的低秩性质,这一层从隐藏维度投影到更高维度的logit向量。
- 提取嵌入层: 通过有针对性的查询,攻击者可以提取模型的嵌入维度或最终权重矩阵。
具体应用场景:
- 安全研究: 这项技术可以用于安全研究,以评估大型语言模型的安全性和隐私性。
- 防御措施开发: 通过了解攻击者如何窃取模型信息,开发者可以设计出更强大的防御措施来保护模型。
- 模型审计: 对于需要验证模型架构的审计人员,这种攻击方法提供了一种技术手段。
0条评论