【 AI 看诊】找 AI 看诊到底行不行？牛津大学：和搜寻引擎准确度差不多

2/9/2026 8:33:59 PM 浏览 657 次

最新研究显示，AI 聊天机器人医疗建议表现与传统搜寻引擎相当，却未改善用户健康度。

研究由牛津网路研究所与牛津大学纳菲尔德基层健康科学系的学者，与 MLCommons 及其他机构合作，近 1,300 名英国参与者，测试十个专家设计的医疗情境，参与者随机分成两组，一组用大型语言模型（LLMs）如 GPT-4o、Llama 3 和 Command R+，另一组为个人常用诊断方法，大部分为网路搜寻或个人知识。

结果显示，使用 LLM 参与者的评估健康状况和建议行动表现，与用搜寻引擎的参与者相当，成功率仅 33%~45%。尽管 LLM 理论上结构化问题有 94.9% 准确率，但实际互动时因人类与 AI 沟通不良，导致表现差距颇大。用户经常忽略关键细节、误解聊天机器人意思或忽视建议。

共同作者之一、牛津网路研究所副教授 Luc Rocher 表示，尽管 AI 不断突破，但要保证将来模型能平衡用户的慰藉需求与公共卫生系统的有限，仍是个挑战。越来越多人依赖聊天机器人给予医疗建议，大众可能会将错误但看似合理的诊断导入已吃紧的医疗体系。

研究者强调，AI 聊天机器人尚未准备好在现实世界当医生，呼吁开发者和监管机构部署 LLM 照护病患前，必须实际评估用户。

科技新报

首图来源：AI

【 AI 看诊】找 AI 看诊到底行不行？牛津大学：和搜寻引擎准确度差不多

把此文章分享到：