云端服务提供商Cloudflare以其CDN和网络安全服务著称,近期推出了一款新的免费工具,旨在防止AI公司的机器人未经允许抓取客户网站内容,用于训练大型语言模型。这款工具现已面向所有Cloudflare客户开放,包括免费套餐用户。Cloudflare承诺将持续监控并自动更新防护措施,以抵御用于模型训练的大规模网络内容抓取行为。
在最近的一篇博客文章中,Cloudflare披露了一些关于AI内容爬取机器人的数据。令人惊讶的是,在过去的一年里,最“活跃”的机器人是字节跳动的Bytespider,它试图爬取了Cloudflare监管下40%的网站内容。紧随其后的是OpenAI的“GPTBot”,它尝试访问了其中的35%。如果按请求数量计算,Bytespider、GPTBot、Amazonbot和ClaudeBot占据了前四名。
当前,大型科技公司在追求内容以训练AI模型时,几乎无所不用其极,这使得完全阻止AI机器人访问内容变得异常困难。为了在竞争激烈的AI领域抢占先机,一些公司不惜游走在灰色地带,甚至公然无视现有的机器人规则。在这种情况下,似乎只有像Cloudflare这样的大型后端公司采取认真防护措施,才有可能有效遏制这种行为。
Cloudflare表示:“我们担心一些AI公司为了规避禁止访问的规则,会不断调整策略以逃避机器人检测。我们将持续监测,并向我们的防护机制添加更多的机器人拦截措施,同时不断完善我们的机器学习模型。我们希望帮助内容创作者,让他们在网络上繁荣发展的同时,也能完全掌控自己的内容是否被用于AI训练或模型推导。”
Cloudflare的这一举措,不仅为网站所有者提供了强有力的保护,也反映了业界对于AI伦理和内容版权问题的重视。随着AI技术的快速发展,如何平衡技术创新与内容保护,将是未来互联网治理的重要议题。
0条评论