尽管 ChatGPT 据称能够通过体检,但新的研究表明,依赖它进行某些健康评估(例如胸痛患者是否需要住院)是不明智的。
在一项涉及数千名胸痛患者模拟病例的研究中,ChatGPT 提供了不一致的结论,针对完全相同的患者数据返回了不同的心脏风险评估级别。生成式人工智能系统也无法与医生用来判断患者心脏病风险的传统方法相匹配。研究结果发表在《PLOS ONE》杂志上。
“ChatGPT 的行为方式不一致,”华盛顿州立大学埃尔森·S·弗洛伊德医学院的研究员托马斯·赫斯顿 (Thomas Heston) 博士说。 “鉴于完全相同的数据,ChatGPT 会给出低风险评分,然后下次给出中等风险评分,有时甚至会给出高风险评分。”
作者认为,该问题可能是由于当前版本的软件 ChatGPT4 中内置的随机性水平造成的,这有助于它改变模拟自然语言的响应。然而,这种随机性对于需要单一一致答案的医疗保健用途来说效果不佳,赫斯顿说。
“我们发现存在很多变化,而方法的变化可能是危险的,”他说。 “它可能是一个有用的工具,但我认为这项技术的发展速度比我们对它的理解要快得多,因此我们进行大量研究至关重要,特别是在这些高风险的临床情况下。”