聊天机器人任意撷取网站内容 AI公司被指无视协定

2024年06月26日美国
【新唐人北京时间2024年06月26日讯】两家领先的人工智能(AI)新创公司OpenAI和Anthropic,被指“规避”既定网路协定,进而侵犯出版者版权。
以广泛使用的聊天机器人“ChatGPT”而闻名的新创公司OpenAI,其主要投资者是微软(Microsoft),而制造了知名聊天机器人“Claude”的Anthropic公司主要得到亚马逊(Amazon)的支持。
一家协助出版商与人工智能公司协商版权事宜的企业TollBit,其分析师及另一知情人士向《商业内幕》(Business Insider)透露,OpenAI和Anthropic一直在寻求规避既定网路协定的途径,特别是规避robots.txt标准。这项规则旨在防止机器人自动化撷取网站内容。
上周五(6月21日),TollBit向一些知名出版商发出信函,提醒他们这个问题。在此之前,已经有许多人工智能公司被曝光从事类似行为。
《福布斯》(Forbes)上周指控提供“免费人工智能搜索引擎”的IA公司Perplexity,指其从多个平台剽窃并传播未经授权的文章后,引起了公众的关注。《连线》(Wired)杂志在一篇报导中披露,Perplexity一直无视robots.txt协定,撷取其网站和康泰纳仕(Conde Nast)旗下出版物内容。科技网站The Shortcut也指控该公司抓取其内容。
尽管OpenAI和Anthropic曾公开表示承诺遵守协定,会对其各自的网路爬虫(web crawler)GPTBot和ClaudeBot进行约束,以尊重各网站robots.txt文件中设置的指示。
但TollBit的发现表明他们并未遵守诺言。目前,OpenAI和Anthropic均未对此事发表评论。
robots.txt自1990年代推出以来一直是一个基本的程序码片段,通过指令告诉网络爬虫怎么抓取网站的页面。它已被广泛接受,成了网路管理的不成文规则。
随着生成式人工智能迅速发展,新创公司和科技公司正竞相建立尖端人工智能模型。但在过程中,对这种训练数据的需求不断增加的同时,已经削弱了robots.txt的效力。
去年,几家科技公司在美国版权局(U.S. Copyright Office)面前主张,为了人工智能训练数据,网路内容应该豁免版权保护。版权局计划在今年晚些时候更新有关人工智能和版权的指南。
(记者杨采华综合编译报导/责任编辑:林清)