当前位置：首页 > 优惠 >大语言模型>文章详情

MLCommons AI安全工作组推出AI安全基准测试（AI Safety Benchmark）v0.5版本

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-20)| 分类：大语言模型 | 热度：295 ℃

已关闭评论

MLCommons AI安全工作组推出AI安全基准测试（AI Safety Benchmark）v0.5版本

AI

由MLCommons AI安全工作组（AI Safety Working Group）开发的AI安全基准测试（AI Safety Benchmark）的v0.5版本。这个基准测试的目标是评估使用聊天调优语言模型（chat-tuned language models）的AI系统的安全风险。v0.5版本的基准测试不应该用来实际评估AI系统的安全性，而是作为一个概念验证，以征求社区的反馈。未来的v1.0版本预计将在2024年底发布，提供更深入的安全洞察。

主要功能和特点：

评估AI系统安全性：基准测试设计用来评估AI系统在特定用例中的安全风险，例如成人与通用助手的英语对话。
定义危害类别：创建了一个新的包含13个危害类别的分类法，v0.5版本中包含了其中的7个类别的测试。
测试用例：使用模板生成了43,090个测试项（prompts），用于评估AI系统在不同危害类别下的表现。
评分系统：开发了一个公开、可解释的评分系统，可以根据一系列用例调整评分。
ModelBench工具：提供了一个名为ModelBench的开放平台和可下载工具，用于在基准测试上评估AI系统的安全性。
匿名化测试：为了收集反馈，所有测试的模型都被匿名化。

工作原理：

用例和角色定义：基准测试围绕特定的用例和角色（如普通用户、恶意用户和易受攻击的用户）构建。
分类法：使用分类法将个别危害（如模型提供不安全建议）归类为更广泛的类别。
测试项生成：通过结合句子片段和模板来创建测试项，这些测试项反映了不同角色可能与模型进行的交互。
自动化评估：使用自动化评估模型（如LlamaGuard）来评估AI系统对测试项的响应是否安全。
评分和分级：根据AI系统在各个测试上的表现，将其转换为百分比分数，并进一步转换为5分制的等级。

具体应用场景：

模型提供者：帮助AI模型的开发者构建更安全的模型，并确保模型的合规性。
模型集成者：帮助决定使用哪个AI模型，并确保产品在实现目标的同时保持安全性。
AI标准制定者和监管机构：通过比较不同模型并设定安全标准，最小化AI带来的风险。
学术研究和政策制定：提供对AI安全性的深入理解和评估，帮助制定相关政策和法规。

AI安全基准测试

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：新框架ALPHALLM：帮助大语言模型通过自我评估和学习来提高其在复杂推理和规划任务上的表现，而不需要额外的人工标注数据

下一篇： TriForce：为了提高大语言模型（LLMs）在生成长文本内容时的效率而设计

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录