由MLCommons AI安全工作组(AI Safety Working Group)开发的AI安全基准测试(AI Safety Benchmark)的v0.5版本。这个基准测试的目标是评估使用聊天调优语言模型(chat-tuned language models)的AI系统的安全风险。v0.5版本的基准测试不应该用来实际评估AI系统的安全性,而是作为一个概念验证,以征求社区的反馈。未来的v1.0版本预计将在2024年底发布,提供更深入的安全洞察。
主要功能和特点:
- 评估AI系统安全性:基准测试设计用来评估AI系统在特定用例中的安全风险,例如成人与通用助手的英语对话。
- 定义危害类别:创建了一个新的包含13个危害类别的分类法,v0.5版本中包含了其中的7个类别的测试。
- 测试用例:使用模板生成了43,090个测试项(prompts),用于评估AI系统在不同危害类别下的表现。
- 评分系统:开发了一个公开、可解释的评分系统,可以根据一系列用例调整评分。
- ModelBench工具:提供了一个名为ModelBench的开放平台和可下载工具,用于在基准测试上评估AI系统的安全性。
- 匿名化测试:为了收集反馈,所有测试的模型都被匿名化。
工作原理:
- 用例和角色定义:基准测试围绕特定的用例和角色(如普通用户、恶意用户和易受攻击的用户)构建。
- 分类法:使用分类法将个别危害(如模型提供不安全建议)归类为更广泛的类别。
- 测试项生成:通过结合句子片段和模板来创建测试项,这些测试项反映了不同角色可能与模型进行的交互。
- 自动化评估:使用自动化评估模型(如LlamaGuard)来评估AI系统对测试项的响应是否安全。
- 评分和分级:根据AI系统在各个测试上的表现,将其转换为百分比分数,并进一步转换为5分制的等级。
具体应用场景:
- 模型提供者:帮助AI模型的开发者构建更安全的模型,并确保模型的合规性。
- 模型集成者:帮助决定使用哪个AI模型,并确保产品在实现目标的同时保持安全性。
- AI标准制定者和监管机构:通过比较不同模型并设定安全标准,最小化AI带来的风险。
- 学术研究和政策制定:提供对AI安全性的深入理解和评估,帮助制定相关政策和法规。
0条评论