随着生成式人工智能技术在各个领域的广泛应用,社会各界对其潜在风险的关注也在升温,尤其是其可能被恶意利用威胁儿童安全的问题。今日,谷歌、Meta、OpenAI、微软、亚马逊等科技巨头共同承诺,将对旗下人工智能训练数据进行全面筛查,剔除其中涉及儿童性虐待材料(CSAM)的内容,并确保未来发布的模型不再使用此类数据。
签署新原则,筑起防护壁垒
上述公司已签署一套全新的指导原则,旨在有效遏制CSAM的传播。这些原则要求:
- 严控训练数据:确保AI训练数据集中不含有任何CSAM。
- 规避高风险来源:避免使用可能包含CSAM的高风险数据集,并从源头移除已发现的CSAM图像或相关链接。
- 实施严格测试:对AI模型进行“压力测试”,确保其无法生成CSAM图像,且仅在通过严格的儿童安全评估后方予发布。
此外,Anthropic、Civitai、Metaphysic、Mistral AI、Stability AI等企业也积极响应,一同签署了上述原则。
研究报告揭示严峻现实
近期,斯坦福大学的一项研究报告揭示了生成式AI与CSAM问题之间的紧密关联。研究指出,一些流行的人工智能训练数据集中存在CSAM图像链接,加剧了网络环境中伪造CSAM照片的泛滥现象。美国国家失踪与被剥削儿童中心(NCMEC)在应对海量CSAM报告时已显得捉襟见肘,而AI生成的CSAM图片更是令其应对能力面临严峻考验。
携手公益组织共筑防线
为落实上述承诺,这些科技公司积极携手两大公益团体:“Thorn”——一家专注于打击儿童性虐待的非营利组织,以及“所有科技都应以人为本”(All Tech Is Human)——致力于构建“负责任科技生态”的倡导机构。各方合力,旨在通过强化行业规范、提升技术监管,确保生成式人工智能技术的发展既能发挥创新潜力,又能坚守伦理底线,切实保障儿童网络安全。
以下是官方全文翻译:
互联网不仅加速了对儿童的线上线下性侵害,生成式人工智能的滥用更是对儿童安全构成了严重威胁,涉及儿童受害、受害者身份识别、虐待行为蔓延等多个方面。
这种滥用及其带来的下游危害,已经在我们社区中悄然发生。
然而,我们正处于一个难得的机遇期——一个可以扭转局面的机会之窗。我们仍然有机会选择正确的道路来使用生成式人工智能,并确保在技术的构建过程中充分保护儿童。
今天,一些世界上最具影响力的AI领导者,通过展示强大的集体行动,选择了正确的道路。
亚马逊、Anthropic、Civitai、谷歌、Meta、Metaphysic、微软、Mistral AI、OpenAI和Stability AI与Thorn和All Tech Is Human携手合作,公开承诺遵循“设计安全”原则。这些原则旨在防范生成和传播AI生成的儿童性虐待材料(AIG-CSAM)以及其他针对儿童的性侵害行为。
他们的承诺为整个行业树立了开创性的先例,并标志着在生成式人工智能的未来发展中,保护儿童免受性虐待的努力取得了重大进展。
今天发布的《生成式人工智能设计安全:预防儿童性虐待》这份新报告,详细阐述了这些共同定义的原则。该报告由Thorn、All Tech Is Human以及部分参与企业共同撰写,进一步明确了AI开发者、提供商、数据托管平台、社交平台以及搜索引擎可采纳的风险缓解措施和具体策略,以落实这些原则。
作为对这些原则的承诺的一部分,这些公司还同意公开透明地发布和分享他们遵循这些原则所取得的进展的文档。
通过将设计安全原则融入其生成式人工智能技术和产品中,这些公司不仅致力于保护儿童的安全,还在推动道德AI创新方面发挥着引领作用。
这些承诺的及时提出,无疑为整个行业带来了正面的影响。
滥用生成式人工智能正在加速儿童性虐待的蔓延
生成式人工智能让大量内容的创作变得比以往任何时候都更加便捷。这种技术使得单个恋童癖患者能够迅速、大规模地制作儿童性虐待材料(CSAM)。这些不良行为者可能会将原始图像和视频改编成新的虐待材料,使内容中的儿童再次受害,或者将儿童的良性材料篡改为色情内容,甚至完全由人工智能生成CSAM。
2023年,美国报告了超过1.04亿份疑似CSAM文件。大量AIG-CSAM的涌入给已经压力重重的儿童安全生态系统带来了更大的风险,加剧了执法部门在识别和救助现有虐待受害者以及防止更多儿童受害方面的挑战。
生成式人工智能可以以多种方式对儿童进行性剥削:
- 阻碍识别儿童受害者的努力
对于执法部门来说,受害者识别已经是一个大海捞针般棘手的问题:他们需要从海量的内容中筛选出处于危险中的儿童。而AIG-CSAM日益普及的现象只会使这一任务变得更加艰巨,增加了受害者识别的难度。
- 制造儿童新的受害和再次受害的方式
不良行为者现在可以轻易地使用生成式人工智能生成儿童新的虐待材料,或将儿童的良性图像进行色情化处理。这些图像可以精确地模拟特定儿童的外貌,但展现出不同的姿势、行为和令人震惊的内容,如性暴力。此外,恋童癖患者还利用生成式人工智能来扩大引诱和性勒索的规模。
- 刺激对儿童性虐待材料的需求增长
AIG-CSAM的日益流行使社会对儿童性化的敏感度降低,进一步推动了对CSAM的需求增长。研究指出,接触这类材料与犯罪行为之间存在联系,而这种材料的普遍化还会给儿童带来其他不良后果。
- 方便儿童性虐待者之间的信息共享
生成式人工智能模型为不良行为者提供了关于如何对儿童进行性虐待的指导,包括胁迫方法、销毁证据和操纵虐待痕迹的技巧,以及如何确保受害者保持沉默的建议。
尽管目前AIG-CSAM的普及程度还相对较小,但其增长趋势不容忽视。保护儿童免受伤害需要积极主动的响应。今天,“设计安全”工作组所采取的行动,正是开启了这一紧迫而必要的事业。
针对AI生命周期各阶段的设计安全原则
本文详细阐述了设计安全措施,旨在在AI的整个生命周期中预防AIG-CSAM和其他针对儿童的性侵害行为的产生与传播。
设计安全是一种积极主动的产品设计方法。它要求公司在开发过程中预测可能出现的威胁,并设计必要的保障措施——而不是在伤害发生后才进行补救。
AI的每个阶段——从开发到部署再到维护——都拥有预防和减轻针对儿童性侵害的独特机会。这些原则概述了适用于这些阶段的安全协议。
亚马逊、Anthropic、Civitai、谷歌、Meta、Metaphysic、微软、Mistral AI、OpenAI和Stability AI均承诺遵守以下原则:
开发、构建和训练能够积极应对儿童安全风险的生成式人工智能模型。
- 负责地获取训练数据集,并确保其不含有儿童性虐待材料(CSAM)和儿童性剥削材料(CSEM):这是防止生成模型产生AIG-CSAM和CSEM的关键。如果生成模型的训练数据集中包含CSAM和CSEM,这些模型就有可能复制此类虐待内容。此外,一些模型的组合泛化能力使它们能够将不同概念(如成人性内容和非性描写的儿童)结合,从而生成AIG-CSAM。因此,必须避免或尽量减少使用存在CSAM和CSEM风险的训练数据。同时,应检测并清除训练数据中的CSAM和CSEM,并将任何确认的CSAM报告给相关机构。此外,还需要注意在视频、图像和音频生成训练数据集中,将儿童描绘与成人性内容混合在一起可能带来的AIG-CSAM风险。
- 在开发过程中,应融入反馈循环和迭代压力测试策略:通过持续学习和测试,深入了解模型产生虐待内容的能力,对于有效应对下游模型中的恶意滥用至关重要。如果不对模型进行这些能力的压力测试,不良行为者仍会进行。因此,应在整个开发过程中,对模型进行结构化、可扩展和一致的压力测试,以评估其在法律允许范围内产生AIG-CSAM和CSEM的能力。同时,将这些测试结果反馈到模型训练和开发中,以提高生成式人工智能产品和系统的安全保证。
- 在考虑到恶意滥用的情况下采用内容溯源技术:不良行为者会利用生成式人工智能创建AIG-CSAM。这类内容逼真且可大规模生产,使得受害者识别成为执法部门面临的一大挑战:他们需要在海量的内容中筛选出那些处于危险中的儿童。随着AIG-CSAM的日益普及,这一挑战变得更加艰巨。因此,能够可靠地判断内容是否由AI生成的内容溯源技术,对于有效应对AIG-CSAM至关重要。我们应该积极开发先进的媒体溯源或检测解决方案,以应用于我们的图像和视频生成工具中。同时,我们还需部署相应的解决方案以应对恶意滥用行为,例如,在技术可行的前提下,可以考虑在图像和视频生成过程中采用水印或其他技术,将不可察觉的信号嵌入内容中。
在训练和评估确保儿童安全后,再发布和分发生成式人工智能模型,并在整个过程中提供保护。
- 保障您的生成式人工智能产品和服务远离滥用内容和行为:生成式人工智能产品和服务赋予用户创造和探索新领域的能力。这些用户有权在一个没有欺诈和滥用的创作空间中自由发挥。因此,我们需要在整个生成式人工智能系统中打击和应对滥用内容(包括儿童性虐待材料、AIG-CSAM和儿童性剥削材料),并融入预防工作。用户的声音至关重要:提供用户报告或反馈选项,使用户能够在您的平台上自由构建,同时保障其权益。
- 负责任地托管您的模型:随着模型能力和创意的不断提升,多种部署机制既带来了机遇也带来了风险。设计安全必须综合考虑模型的训练方式以及托管方式。我们将负责任地托管您的第一方生成式模型,通过红队测试或分阶段部署等方式评估其潜在风险,特别关注其可能生成AIG-CSAM和CSEM的情况,并在托管前实施相应的缓解措施。同时,我们将以最小化托管可能生成AIG-CSAM的模型的方式,负责任地托管第三方模型。此外,我们还将制定明确的规则和政策,明确禁止生成违反儿童安全内容的模型。
- 鼓励开发人员在设计阶段承担安全责任:开发人员的创造力是推动进步的关键。然而,这种进步必须与拥有感和责任感的文化相结合。我们鼓励开发人员在设计阶段就充分考虑安全因素,承担起相应的责任。我们将努力提供有关模型的详细信息,包括一个专注于儿童安全的部分,详细阐述为避免模型被滥用以对儿童造成进一步性伤害而采取的预防措施。同时,我们也将支持开发人员生态系统在解决儿童安全风险方面的努力。
通过持续积极了解并应对儿童安全风险,我们致力于维护模型和平台的安全。
- 阻止服务滥用导致有害工具传播:为了防止服务被滥用导致有害工具的传播,我们必须采取行动。不良行为者已经构建了专门用于生成AIG-CSAM的模型,甚至在某些情况下,他们针对特定儿童生成描绘其形象的AIG-CSAM。此外,他们还开发了用于“裸露化”儿童内容的服务,制造新的AIG-CSAM。这些行为严重侵犯了儿童的权益。因此,我们必须从平台和搜索结果中彻底删除这些模型和服务。
- 投资于研究和未来技术解决方案:为了有效应对这一挑战,我们需要积极投资于研究和未来技术解决方案的开发。在线儿童性虐待的威胁不断演变,不良行为者会不断采用新技术进行作恶。为了有效打击利用生成式人工智能进一步实施儿童性虐待的滥用行为,我们必须保持警惕,持续进行深入研究,以应对新的危害途径和威胁。例如,开发新技术以保护用户内容免受AI篡改,对于保护儿童免受在线性虐待和剥削至关重要。因此,我们应积极投资于相关技术的研究和开发,以应对利用生成式人工智能进行在线儿童性虐待和剥削的问题。同时,我们还应努力了解我们的平台、产品和模型可能如何被不良行为者滥用,并及时采取必要的措施加以防范。我们要不断提升缓解措施的质量,以应对并克服可能出现的新滥用途径。
- 在您的平台上打击CSAM、AIG-CSAM和CSEM:我们还应在平台上积极打击CSAM、AIG-CSAM和CSEM。我们要坚决在线打击CSAM,并采取措施防止平台被用于创建、存储、征求或传播此类材料。随着新威胁途径的不断出现,我们必须迅速应对,及时在平台上检测和删除违反儿童安全的内容。我们要严格禁止并打击平台上的CSAM、AIG-CSAM和CSEM,同时也要打击利用生成式AI进行欺诈性活动以性侵犯儿童的行为,确保儿童的安全和权益得到最大程度的保护。
此外,Teleperformance也积极参与这一集体行动,郑重承诺将全力支持其客户遵守这些原则。
该论文进一步详细阐述了可实施的、具体的缓解措施,以落实这些原则。在制定这些缓解措施时,我们充分考虑了公司的开源或闭源模式,以及它们在AI生态系统中作为开发者、提供者、数据托管平台或其他角色的身份。
这些AI领导者的集体承诺,无疑是对整个行业的一次行动号召。
我们强烈呼吁所有开发、部署、维护和使用生成式AI技术和产品的公司,积极采纳这些“设计保障安全”的原则,并展示他们在防止创建和传播CSAM、AIG-CSAM以及其他儿童性虐待和剥削行为方面的坚定决心。
通过共同努力,我们将携手打造一个更安全的互联网环境,为孩子们创造更加美好的未来,即使生成式AI正在不断改变我们周围的数字景观。
Thorn的生成式AI倡议,包括其在“设计保障安全”工作组中的领导作用,得益于帕特里克·J·麦戈文基金会的慷慨支持。
0条评论