订阅电子报

正文

聊天机器人任意撷取网站内容 AI公司被指无视协定

2024年06月26日美国

(KIRILL KUDRYAVTSEV/AFP via Getty Images)

(KIRILL KUDRYAVTSEV/AFP via Getty Images)

【新唐人北京时间2024年06月26日讯】两家领先的人工智能（AI）新创公司OpenAI和Anthropic，被指“规避”既定网路协定，进而侵犯出版者版权。

以广泛使用的聊天机器人“ChatGPT”而闻名的新创公司OpenAI，其主要投资者是微软（Microsoft），而制造了知名聊天机器人“Claude”的Anthropic公司主要得到亚马逊（Amazon）的支持。

一家协助出版商与人工智能公司协商版权事宜的企业TollBit，其分析师及另一知情人士向《商业内幕》（Business Insider）透露，OpenAI和Anthropic一直在寻求规避既定网路协定的途径，特别是规避robots.txt标准。这项规则旨在防止机器人自动化撷取网站内容。

上周五（6月21日），TollBit向一些知名出版商发出信函，提醒他们这个问题。在此之前，已经有许多人工智能公司被曝光从事类似行为。

《福布斯》（Forbes）上周指控提供“免费人工智能搜索引擎”的IA公司Perplexity，指其从多个平台剽窃并传播未经授权的文章后，引起了公众的关注。《连线》（Wired）杂志在一篇报导中披露，Perplexity一直无视robots.txt协定，撷取其网站和康泰纳仕（Conde Nast）旗下出版物内容。科技网站The Shortcut也指控该公司抓取其内容。

尽管OpenAI和Anthropic曾公开表示承诺遵守协定，会对其各自的网路爬虫（web crawler）GPTBot和ClaudeBot进行约束，以尊重各网站robots.txt文件中设置的指示。

但TollBit的发现表明他们并未遵守诺言。目前，OpenAI和Anthropic均未对此事发表评论。

robots.txt自1990年代推出以来一直是一个基本的程序码片段，通过指令告诉网络爬虫怎么抓取网站的页面。它已被广泛接受，成了网路管理的不成文规则。

随着生成式人工智能迅速发展，新创公司和科技公司正竞相建立尖端人工智能模型。但在过程中，对这种训练数据的需求不断增加的同时，已经削弱了robots.txt的效力。

去年，几家科技公司在美国版权局（U.S. Copyright Office）面前主张，为了人工智能训练数据，网路内容应该豁免版权保护。版权局计划在今年晚些时候更新有关人工智能和版权的指南。

（记者杨采华综合编译报导／责任编辑：林清）

相关话题

人工智能

AI

聊天机器人

ChatGPT

OpenAI

生成式人工智能

robots.txt

相关文章

美众院中国周通过25项抗共法案释放何信号

美众院中国周通过25项抗共法案释放何信号

2024年09月14日

美联航将透过“星链”提供免费机上Wi-Fi

美联航将透过“星链”提供免费机上Wi-Fi

2024年09月14日

美军8月底突袭伊拉克西部击毙4名ISIS领袖

美军8月底突袭伊拉克西部击毙4名ISIS领袖

2024年09月14日

美揭露俄媒RT扮全球情报战要角具军事采购能力

美揭露俄媒RT扮全球情报战要角具军事采购能力

2024年09月14日

英特尔CEO向雷蒙多求助抱怨美企太依赖台积

英特尔CEO向雷蒙多求助抱怨美企太依赖台积

2024年09月14日

纽约联合国总部前请愿台湾社团传达入联心声

纽约联合国总部前请愿台湾社团传达入联心声

2024年09月14日

台湾意象再登纽约时代广场吸引国际旅客目光

台湾意象再登纽约时代广场吸引国际旅客目光

2024年09月14日

美国总统是怎么选出来的？大选流程简单看

美国总统是怎么选出来的？大选流程简单看

2024年09月14日