在探讨生成式AI技术飞速发展的同时,其背后的训练数据获取方式引起了广泛的关注与讨论。该领域的发展高度依赖于海量数据的支持,而这些数据往往源自互联网的各个角落。尽管存在旨在限制非授权访问的行业规范,比如robot.txt协议,但实际情况显示,并非所有AI研发企业都严格遵循这一规则。
近期报道揭示了一种普遍现象,即部分AI开发公司绕过了网站设置的抓取屏障,擅自抓取内容用于模型训练。AI搜索引擎新秀Perplexity便是其中之一,遭到了舆论的批评。内容授权领域的初创公司TollBit通过分析指出,多起代理访问模式显示出,违反robots.txt协议的行为并非个例,而是涉及多家机构,凸显了行业内对于数据获取伦理的忽视。
更有深度调查如Business Insider所揭露的,一些知名AI企业,包括OpenAI和Anthropic,也被指控行为类似,加剧了公众对此问题的关注。面对质疑,Perplexity的首席执行官Aravind Srinivas在Fast Company的访谈中回应,强调公司并非有意规避Robot Exclusions Protocol,并指出问题的复杂性在于他们使用的第三方网络抓取服务可能未完全遵守相关规则。他进一步提出,当前的robots.txt协议作为非强制性的行业指南,或许已不足以适应AI时代的数据需求,建议出版商与AI企业探索建立新型的合作与授权机制,以适应技术进步带来的挑战。(来源)
0条评论