当前位置：首页 > 情报 >AI情报>文章详情

剔除删除 CSAM！德国研究组织LAION发布全新数据集

8个月前 (08-31) | 分类： AI情报 | 热度： 103 ℃

暂无评论

德国研究组织LAION，创建了用于训练如Stable Diffusion等生成式 AI (Generative AI) 模型的数据，最近发布了一个新数据集，声称已经“彻底清除了已知与疑似儿童性虐待材料（CSAM）链接”。

重新发布版本：Re-LAION-5B

这个新数据集Re-LAION-5B实际上是旧数据集LAION-5B的重新发布版本，包含了根据Internet Watch Foundation、Human Rights Watch、加拿大儿童保护中心以及斯坦福互联网观察站的建议所实施的“修复”。它提供两个版本供下载：Re-LAION-5B Research和Re-LAION-5B Research-Safe（后者还去除了额外的不适宜内容），LAION表示，这两个版本都经过了对已知及疑似CSAM的数千个链接的过滤。LAION在一篇博客文章中写道：“LAION从一开始就致力于从其数据集中移除非法内容，并从一开始就实施了适当的措施来实现这一点，”“LAION严格遵守一经发现非法内容即尽快移除的原则。”

数据集不包含图像

需要注意的是，LAION的数据集不包含——也从未包含——图像。相反，它们是指向Common Crawl数据集中链接和图像alt文本的索引，这些链接和文本都是LAION策划的，全部来自被爬取的网站和网页。

Re-LAION-5B的发布是在斯坦福互联网观察站在2023年12月的一项调查之后，该调查发现LAION-5B——特别是一个称为LAION-5B 400M的子集——至少包含了1,679个链接，这些链接是从社交媒体帖子和流行的成人网站中抓取的非法图像。根据报告，400M还包含了“多种不当内容，包括色情图像、种族歧视和有害社会刻板印象”。

模型训练与数据集使用

尽管斯坦福报告的共同作者指出，移除违规内容将是困难的，并且CSAM的存在并不一定会影响在该数据集上训练的模型的输出，但LAION表示将暂时下线LAION-5B。斯坦福报告建议，使用LAION-5B训练的模型“应该被废弃，并且在可行的情况下停止分发”。AI初创公司Runway最近从AI托管平台Hugging Face下架了它的Stable Diffusion 1.5模型。

新数据集的发布与使用

关于新的Re-LAION-5B数据集，其中包含大约55亿个文本-图像对，并且是在Apache 2.0许可下发布的，LAION表示元数据可以被第三方用来通过移除匹配的非法内容来清理现有LAION-5B的副本。

LAION强调其数据集旨在用于研究——而非商业——目的。但是，如果历史是任何指示的话，那不会阻止一些组织。除了Stability AI外，Google曾经使用LAION数据集来训练其图像生成模型。

“总共，2,236个链接（疑似CSAM）在与我们的合作伙伴提供的链接和图像哈希列表匹配后被移除，”LAION在文章中继续说道。“这些链接也包括了斯坦福互联网观察站在2023年12月发现的1008个链接……我们强烈敦促所有仍在使用旧LAION-5B的研究实验室和组织尽快迁移到Re-LAION-5B数据集。”

顶 (0 )

踩 (0 )

LAION