OpenAI 的模型在评估眼疾方面几乎与医生不相上下

研究使用了 87 种不同的病人情况来测试 GPT-4 在非专业初级医生、见习眼科医师和专家眼科医师中的表现。论文称，该模型的表现优于初级医生，并取得了与许多专家相似的结果。

研究人员说，这项研究之所以引人注目，是因为它将人工智能模型的能力与执业医生的能力进行了比较，而不是与检查结果进行比较。它还运用了生成式人工智能的广泛能力，而不是之前一些人工智能医学研究中测试的狭窄能力，如通过病人扫描诊断癌症风险。

该模型在需要一阶记忆的问题和需要高阶推理的问题（如插值、解释和处理信息的能力）上表现同样出色。

“Thirunavukarasu 先生在剑桥大学临床医学院学习期间开展了这项研究。

Thirunavukarasu 先生目前在牛津大学工作，他说，通过对包括管理算法、匿名病人笔记和教科书在内的扩展数据集进行训练，可以进一步完善该模型。

他补充说，这就要求在扩大信息来源的数量和性质的同时，确保信息保持良好的质量，在两者之间取得 “棘手的平衡”。潜在的临床用途可能是对病人进行分流，或在专业医护人员有限的情况下使用。

有证据表明，人工智能有助于诊断，例如可以发现可能被医生遗漏的早期乳腺癌，因此在临床环境中部署人工智能的兴趣大增。与此同时，鉴于错误诊断可能对患者造成的伤害，研究人员也在努力解决如何控制严重风险的问题。

伦敦大学学院人工医学智能教授皮尔斯-基恩（Pearse Keane）说，这项最新研究 “令人兴奋”，其利用人工智能为专家的表现设定基准的想法 “超级有趣”。

基恩博士也隶属于伦敦莫菲尔德眼科医院，他也认为在将这些技术引入临床之前还需要做更多的工作。

基恩先生列举了自己去年研究中的一个例子：他向一个大型语言模型询问有关眼睛黄斑变性的问题，结果该模型在回答中给出了 “编造的 “参考资料。

“我们必须在对这项技术的兴奋和潜在的巨大利益之间取得平衡。.他说

金融时报

Arrivau原创发布，小助手微信：Arrivau | 电话：1800 717 520 | 提个问题