剔除删除 CSAM!德国研究组织LAION发布全新数据集

| 分类: AI情报 | 热度: 44 ℃

德国研究组织LAION,创建了用于训练如Stable Diffusion等生成式 AI (Generative AI) 模型的数据,最近发布了一个新数据集,声称已经“彻底清除了已知与疑似儿童性虐待材料(CSAM)链接”。

重新发布版本:Re-LAION-5B

这个新数据集Re-LAION-5B实际上是旧数据集LAION-5B的重新发布版本,包含了根据Internet Watch Foundation、Human Rights Watch、加拿大儿童保护中心以及斯坦福互联网观察站的建议所实施的“修复”。它提供两个版本供下载:Re-LAION-5B Research和Re-LAION-5B Research-Safe(后者还去除了额外的不适宜内容),LAION表示,这两个版本都经过了对已知及疑似CSAM的数千个链接的过滤。LAION在一篇博客文章中写道:“LAION从一开始就致力于从其数据集中移除非法内容,并从一开始就实施了适当的措施来实现这一点,”“LAION严格遵守一经发现非法内容即尽快移除的原则。”

数据集不包含图像

需要注意的是,LAION的数据集不包含——也从未包含——图像。相反,它们是指向Common Crawl数据集中链接和图像alt文本的索引,这些链接和文本都是LAION策划的,全部来自被爬取的网站和网页。

Re-LAION-5B的发布是在斯坦福互联网观察站在2023年12月的一项调查之后,该调查发现LAION-5B——特别是一个称为LAION-5B 400M的子集——至少包含了1,679个链接,这些链接是从社交媒体帖子和流行的成人网站中抓取的非法图像。根据报告,400M还包含了“多种不当内容,包括色情图像、种族歧视和有害社会刻板印象”。

模型训练与数据集使用

尽管斯坦福报告的共同作者指出,移除违规内容将是困难的,并且CSAM的存在并不一定会影响在该数据集上训练的模型的输出,但LAION表示将暂时下线LAION-5B。斯坦福报告建议,使用LAION-5B训练的模型“应该被废弃,并且在可行的情况下停止分发”。AI初创公司Runway最近从AI托管平台Hugging Face下架了它的Stable Diffusion 1.5模型。

新数据集的发布与使用

关于新的Re-LAION-5B数据集,其中包含大约55亿个文本-图像对,并且是在Apache 2.0许可下发布的,LAION表示元数据可以被第三方用来通过移除匹配的非法内容来清理现有LAION-5B的副本。

LAION强调其数据集旨在用于研究——而非商业——目的。但是,如果历史是任何指示的话,那不会阻止一些组织。除了Stability AI外,Google曾经使用LAION数据集来训练其图像生成模型。

“总共,2,236个链接(疑似CSAM)在与我们的合作伙伴提供的链接和图像哈希列表匹配后被移除,”LAION在文章中继续说道。“这些链接也包括了斯坦福互联网观察站在2023年12月发现的1008个链接……我们强烈敦促所有仍在使用旧LAION-5B的研究实验室和组织尽快迁移到Re-LAION-5B数据集。”

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论