訂閱電子報

正文

聊天機器人任意擷取網站內容 AI公司被指無視協定

2024年06月26日美國

(KIRILL KUDRYAVTSEV/AFP via Getty Images)

(KIRILL KUDRYAVTSEV/AFP via Getty Images)

【新唐人北京時間2024年06月26日訊】兩家領先的人工智能（AI）新創公司OpenAI和Anthropic，被指「規避」既定網路協定，進而侵犯出版者版權。

以廣泛使用的聊天機器人「ChatGPT」而聞名的新創公司OpenAI，其主要投資者是微軟（Microsoft），而製造了知名聊天機器人「Claude」的Anthropic公司主要得到亞馬遜（Amazon）的支持。

一家協助出版商與人工智能公司協商版權事宜的企業TollBit，其分析師及另一知情人士向《商業內幕》（Business Insider）透露，OpenAI和Anthropic一直在尋求規避既定網路協定的途徑，特別是規避robots.txt標準。這項規則旨在防止機器人自動化擷取網站內容。

上週五（6月21日），TollBit向一些知名出版商發出信函，提醒他們這個問題。在此之前，已經有許多人工智能公司被曝光從事類似行為。

《福布斯》（Forbes）上週指控提供「免費人工智能搜索引擎」的IA公司Perplexity，指其從多個平台剽竊並傳播未經授權的文章後，引起了公眾的關注。《連線》（Wired）雜誌在一篇報導中披露，Perplexity一直無視robots.txt協定，擷取其網站和康泰納仕（Conde Nast）旗下出版物內容。科技網站The Shortcut也指控該公司抓取其內容。

儘管OpenAI和Anthropic曾公開表示承諾遵守協定，會對其各自的網路爬蟲（web crawler）GPTBot和ClaudeBot進行約束，以尊重各網站robots.txt文件中設置的指示。

但TollBit的發現表明他們並未遵守諾言。目前，OpenAI和Anthropic均未對此事發表評論。

robots.txt自1990年代推出以來一直是一個基本的程序碼片段，通過指令告訴網絡爬蟲怎麼抓取網站的頁面。它已被廣泛接受，成了網路管理的不成文規則。

隨著生成式人工智能迅速發展，新創公司和科技公司正競相建立尖端人工智能模型。但在過程中，對這種訓練數據的需求不斷增加的同時，已經削弱了robots.txt的效力。

去年，幾家科技公司在美國版權局（U.S. Copyright Office）面前主張，為了人工智能訓練數據，網路內容應該豁免版權保護。版權局計劃在今年晚些時候更新有關人工智能和版權的指南。

（記者楊采華綜合編譯報導／責任編輯：林清）

相關話題

人工智能

AI

聊天機器人

ChatGPT

OpenAI

生成式人工智能

robots.txt

相關文章

整理收納高手喜歡在Costco買這10樣東西

整理收納高手喜歡在Costco買這10樣東西

2024年11月22日

感恩節前一週美國各地超市出現雞蛋短缺現象

感恩節前一週美國各地超市出現雞蛋短缺現象

2024年11月22日

【新唐人快報】多家電信公司遭中共駭入「史上最嚴重」

【新唐人快報】多家電信公司遭中共駭入「史上最嚴重」

2024年11月22日

【直播】慶4.39億人三退英文新唐人大紀元舉辦研討會（中文同聲翻譯）

【直播】慶4.39億人三退英文新唐人大紀元舉辦研討會（中文同聲翻譯）

2024年11月22日

內幕：陳一新邀功攻擊法輪功抹黑神韻的素材由特務提供

內幕：陳一新邀功攻擊法輪功抹黑神韻的素材由特務提供

2024年11月22日

紐約ICE華裔官員被捕或面臨21年徒刑

紐約ICE華裔官員被捕或面臨21年徒刑

2024年11月22日

【短訊】佛州前總檢察長帕姆·邦迪獲司法部長提名

【短訊】佛州前總檢察長帕姆·邦迪獲司法部長提名

2024年11月22日

【新唐人快報】川普新司法部長人選參議院反應積極

【新唐人快報】川普新司法部長人選參議院反應積極

2024年11月22日