正文

人工智能看病？ ChatGPT测试未达要求

2023年07月01日科技

2023年6月5日，在特拉维夫特拉维夫大学校园拍摄的美国人工智能公司OpenAI的徽标。( JACK GUEZ/AFP via Getty Images)

【新唐人北京时间2023年07月02日讯】人工智慧最着名的“聊天机器人”ChatGPT在许多行业掀起波澜，包括医疗保健。但是最新研究发现，在医疗领域ChatGPT还没有掌握足够的诊治技能，至少在眼科、胃肠病学或泌尿科方面没有达到要求。

ChatGPT 通过医疗执照考试

在2023年初的一项研究中，ChatGPT勉强通过了美国医疗执照考试（USMLE），这是一项强制性的行医许可。USMLE包括三项考试，第一项考试针对二年级学生，学生通常会花300到400小时准备考试；第二项考试是针对医学院四年级学生；第三次考试通常是针对完成半年到一年研究生学习的执业医师。这三项考试都通过，即可获得美国的医疗执照。

研究发现，“ChatGPT在所有检查中的准确率均超过50%，在某些分析中超过60%。”

但是，它未能通过其它三项医学教育考试。

ChatGPT两次未能通过眼科测试

加拿大多伦多圣迈克尔（St. Michael’s）医院的研究人员测试了ChatGPT在眼科领域的应试能力，在一项被广泛使用的模拟考试中，第一次测试ChatGPT回答正确率只有46% 。一个月后，它的正确答案分数提高到了58%。

但是，在现实世界的眼科场景中，ChatGPT表现出色。在一项研究中，研究人员对 ChatGPT的十个眼科案例进行了分析，其中九个病例诊断正确。研究人员推测，ChatGPT可能和人类一样，在面对考试时会出现焦虑。

USMLE测试的研究人员认为，人工智能只会有所改善，但是并不能具有与人类相同的能力。

聊天机器人在胃肠病学领域失败

在《美国胃肠病学杂志》最近发表的一项研究中，ChatGPT-3和ChatGPT-4接受了美国胃肠病学学院的自我评估测试。两个版本均未达到70% 的及格线。在给出的455个问题上，ChatGPT-3的得分为65.1%，而ChatGPT-4的得分略低，为62.4%。这表明新版本与其前身相比，并没有表现出有所改进。

人们想知道，ChatGPT“聊天”怎么样？可以回答患者有关胃肠健康的问题吗？

研究人员给ChatGPT110提出了“现实生活”中问题，由经验丰富的胃肠病学家评估答案的准确性、清晰度和有效性，结果并不乐观。研究人员得出结论说“虽然 ChatGPT具有作为信息来源的潜力，但还需要进一步开发”。