正文

人工智能看病？ ChatGPT測試未達要求

2023年07月01日科技

2023年6月5日，在特拉維夫特拉維夫大學校園拍攝的美國人工智能公司OpenAI的徽標。( JACK GUEZ/AFP via Getty Images)

【新唐人北京時間2023年07月02日訊】人工智慧最著名的「聊天機器人」ChatGPT在許多行業掀起波瀾，包括醫療保健。但是最新研究發現，在醫療領域ChatGPT還沒有掌握足夠的診治技能，至少在眼科、胃腸病學或泌尿科方面沒有達到要求。

ChatGPT 通過醫療執照考試

在2023年初的一項研究中，ChatGPT勉強通過了美國醫療執照考試（USMLE），這是一項強制性的行醫許可。USMLE包括三項考試，第一項考試針對二年級學生，學生通常會花300到400小時準備考試；第二項考試是針對醫學院四年級學生；第三次考試通常是針對完成半年到一年研究生學習的執業醫師。這三項考試都通過，即可獲得美國的醫療執照。

研究發現，「ChatGPT在所有檢查中的準確率均超過50%，在某些分析中超過60%。」

但是，它未能通過其它三項醫學教育考試。

ChatGPT兩次未能通過眼科測試

加拿大多倫多聖邁克爾（St. Michael’s）醫院的研究人員測試了ChatGPT在眼科領域的應試能力，在一項被廣泛使用的模擬考試中，第一次測試ChatGPT回答正確率只有46% 。一個月後，它的正確答案分數提高到了58%。

但是，在現實世界的眼科場景中，ChatGPT表現出色。在一項研究中，研究人員對 ChatGPT的十個眼科案例進行了分析，其中九個病例診斷正確。研究人員推測，ChatGPT可能和人類一樣，在面對考試時會出現焦慮。

USMLE測試的研究人員認為，人工智能只會有所改善，但是並不能具有與人類相同的能力。

聊天機器人在胃腸病學領域失敗

在《美國胃腸病學雜誌》最近發表的一項研究中，ChatGPT-3和ChatGPT-4接受了美國胃腸病學學院的自我評估測試。兩個版本均未達到70% 的及格線。在給出的455個問題上，ChatGPT-3的得分為65.1%，而ChatGPT-4的得分略低，為62.4%。這表明新版本與其前身相比，並沒有表現出有所改進。

人們想知道，ChatGPT「聊天」怎麼樣？可以回答患者有關胃腸健康的問題嗎？

研究人員給ChatGPT110提出了「現實生活」中問題，由經驗豐富的胃腸病學家評估答案的準確性、清晰度和有效性，結果並不樂觀。研究人員得出結論說「雖然 ChatGPT具有作為信息來源的潛力，但還需要進一步開發」。