MLCommons AI安全工作组推出AI安全基准测试(AI Safety Benchmark)v0.5版本

分类:大语言模型 | 热度:220 ℃

由MLCommons AI安全工作组(AI Safety Working Group)开发的AI安全基准测试(AI Safety Benchmark)的v0.5版本。这个基准测试的目标是评估使用聊天调优语言模型(chat-tuned language models)的AI系统的安全风险。v0.5版本的基准测试不应该用来实际评估AI系统的安全性,而是作为一个概念验证,以征求社区的反馈。未来的v1.0版本预计将在2024年底发布,提供更深入的安全洞察。

主要功能和特点:

  1. 评估AI系统安全性:基准测试设计用来评估AI系统在特定用例中的安全风险,例如成人与通用助手的英语对话。
  2. 定义危害类别:创建了一个新的包含13个危害类别的分类法,v0.5版本中包含了其中的7个类别的测试。
  3. 测试用例:使用模板生成了43,090个测试项(prompts),用于评估AI系统在不同危害类别下的表现。
  4. 评分系统:开发了一个公开、可解释的评分系统,可以根据一系列用例调整评分。
  5. ModelBench工具:提供了一个名为ModelBench的开放平台和可下载工具,用于在基准测试上评估AI系统的安全性。
  6. 匿名化测试:为了收集反馈,所有测试的模型都被匿名化。

工作原理:

  1. 用例和角色定义:基准测试围绕特定的用例和角色(如普通用户、恶意用户和易受攻击的用户)构建。
  2. 分类法:使用分类法将个别危害(如模型提供不安全建议)归类为更广泛的类别。
  3. 测试项生成:通过结合句子片段和模板来创建测试项,这些测试项反映了不同角色可能与模型进行的交互。
  4. 自动化评估:使用自动化评估模型(如LlamaGuard)来评估AI系统对测试项的响应是否安全。
  5. 评分和分级:根据AI系统在各个测试上的表现,将其转换为百分比分数,并进一步转换为5分制的等级。

具体应用场景:

  1. 模型提供者:帮助AI模型的开发者构建更安全的模型,并确保模型的合规性。
  2. 模型集成者:帮助决定使用哪个AI模型,并确保产品在实现目标的同时保持安全性。
  3. AI标准制定者和监管机构:通过比较不同模型并设定安全标准,最小化AI带来的风险。
  4. 学术研究和政策制定:提供对AI安全性的深入理解和评估,帮助制定相关政策和法规。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论