ChatGPT在儿童呼吸诊断方面胜过实习医生

2024-10-07 18:02来源:本站编辑

在奥地利维也纳举行的欧洲呼吸学会(ERS)大会上发表的一项研究显示,聊天机器人ChatGPT在评估囊性纤维化、哮喘和胸部感染等呼吸道疾病领域的复杂病例方面表现优于实习医生[1]。

该研究还表明,谷歌的聊天机器人巴德在某些方面的表现优于受训人员,微软的必应聊天机器人的表现与受训人员一样好。

研究表明,这些大型语言模型(LLMs)可以用来支持实习医生、护士和全科医生更快地对病人进行分类,减轻卫生服务的压力。

这项研究是由爱丁堡皇家儿童和青少年医院儿科肺病学顾问、英国爱丁堡大学名誉高级临床讲师Manjith Narayanan博士介绍的。他说:“像ChatGPT这样的大型语言模型在过去的一年半里已经崭露头角,它们似乎能够理解自然语言,并提供能够充分模拟类似人类对话的回应。”这些工具在医学上有几个潜在的应用。我进行这项研究的动机是评估法学硕士在现实生活中如何帮助临床医生。”

为了调查这一点,Narayanan博士使用了儿科呼吸医学中经常出现的临床场景。这些场景由另外六位儿科呼吸医学专家提供,涵盖了囊性纤维化、哮喘、睡眠呼吸障碍、呼吸困难和胸部感染等主题。这些都是没有明确诊断的情况,也没有公开的证据、指南或专家共识指向具体的诊断或计划。

10名在儿科有不到4个月临床经验的实习医生有一个小时的时间,他们可以使用互联网(而不是聊天机器人),用200到400个单词的描述性答案来解决每个场景。每个场景也被呈现给三个聊天机器人。

所有的回答由六位儿科呼吸专家对正确性、全面性、有用性、合理性和一致性进行评分。他们还被要求说出他们认为每个回答是人类产生的还是聊天机器人产生的,并给每个回答打一个总分(9分)。

ChatGPT 3.5版提供的解决方案平均得分为7分(总分9分),被认为比其他聊天机器人的回答更像人类。巴德的平均得分为6分(满分9分),比实习医生的“条理清晰”得分更高,但在其他方面与实习医生并无优劣之分。Bing的平均得分为4分(总分9分),与实习医生的总体得分相同。专家们确信必应和巴德的反应不是人类的。

Narayanan博士说:“据我们所知,我们的研究是第一次在反映现实临床实践的情况下对法学硕士和实习医生进行测试。”我们通过允许实习医生完全访问互联网上可用的资源来做到这一点,就像他们在现实生活中一样。这将注意力从内存测试转移开,而内存测试对于llm来说是一个明显的优势。因此,这项研究向我们展示了另一种使用法学硕士的方法,以及我们离常规的日常临床应用有多近。

“我们还没有直接测试法学硕士如何在面对病人的角色中发挥作用。然而,它可以被分诊护士、实习医生和初级保健医生使用,他们通常是第一个检查病人的人。”

研究人员没有发现任何明显的“幻觉”(似乎是虚构的信息)的例子。纳拉亚南博士补充说:“尽管在我们的研究中,我们没有看到法学硕士产生幻觉的任何实例,但我们需要意识到这种可能性,并采取缓解措施。”Bing、Bard和实习医生偶尔会给出被认为与上下文无关的答案。

Narayanan博士和他的同事们现在正计划在更资深的医生身上测试聊天机器人,并研究更新、更高级的法学硕士。

希拉里·平诺克(Hilary Pinnock)是ERS教育委员会主席,也是英国爱丁堡大学初级保健呼吸医学教授,她没有参与这项研究。她说:“这是一项引人入胜的研究。看到像ChatGPT这样广泛使用的人工智能工具如何为复杂的儿童呼吸道疾病病例提供解决方案,这令人鼓舞,但也可能有点可怕。它无疑为人工智能支持医疗的美好新世界指明了道路。

然而,正如研究人员指出的那样,在我们开始在常规临床实践中使用人工智能之前,我们需要确信它不会通过“幻觉”虚假信息或因为它所接受的训练数据不能公平地代表我们所服务的人群而产生错误。正如研究人员所证明的那样,人工智能有望成为一种新的工作方式,但在将这项技术应用于日常护理之前,我们需要对临床准确性和安全性进行广泛的测试,对组织效率进行务实的评估,并探索其社会影响。”

西语资讯声明:未经许可,不得转载。