切换繁体 商家登录

【 AI 看诊】找 AI 看诊到底行不行?牛津大学:和搜寻引擎准确度差不多

2/9/2026 8:33:59 PM     浏览 657 次

最新研究显示,AI 聊天机器人医疗建议表现与传统搜寻引擎相当,却未改善用户健康度。
研究由牛津网路研究所与牛津大学纳菲尔德基层健康科学系的学者,与 MLCommons 及其他机构合作,近 1,300 名英国参与者,测试十个专家设计的医疗情境,参与者随机分成两组,一组用大型语言模型(LLMs)如 GPT-4o、Llama 3 和 Command R+,另一组为个人常用诊断方法,大部分为网路搜寻或个人知识。
结果显示,使用 LLM 参与者的评估健康状况和建议行动表现,与用搜寻引擎的参与者相当,成功率仅 33%~45%。尽管 LLM 理论上结构化问题有 94.9% 准确率,但实际互动时因人类与 AI 沟通不良,导致表现差距颇大。用户经常忽略关键细节、误解聊天机器人意思或忽视建议。
共同作者之一、牛津网路研究所副教授 Luc Rocher 表示,尽管 AI 不断突破,但要保证将来模型能平衡用户的慰藉需求与公共卫生系统的有限,仍是个挑战。越来越多人依赖聊天机器人给予医疗建议,大众可能会将错误但看似合理的诊断导入已吃紧的医疗体系。
研究者强调,AI 聊天机器人尚未准备好在现实世界当医生,呼吁开发者和监管机构部署 LLM 照护病患前,必须实际评估用户。
科技新报
首图来源:AI

把此文章分享到: