最新研究显示,AI 聊天机器人医疗建议表现与传统搜寻引擎相当,却未改善用户健康度。
研究由牛津网路研究所与牛津大学纳菲尔德基层健康科学系的学者,与 MLCommons 及其他机构合作,近 1,300 名英国参与者,测试十个专家设计的医疗情境,参与者随机分成两组,一组用大型语言模型(LLMs)如 GPT-4o、Llama 3 和 Command R+,另一组为个人常用诊断方法,大部分为网路搜寻或个人知识。
结果显示,使用 LLM 参与者的评估健康状况和建议行动表现,与用搜寻引擎的参与者相当,成功率仅 33%~45%。尽管 LLM 理论上结构化问题有 94.9% 准确率,但实际互动时因人类与 AI 沟通不良,导致表现差距颇大。用户经常忽略关键细节、误解聊天机器人意思或忽视建议。
共同作者之一、牛津网路研究所副教授 Luc Rocher 表示,尽管 AI 不断突破,但要保证将来模型能平衡用户的慰藉需求与公共卫生系统的有限,仍是个挑战。越来越多人依赖聊天机器人给予医疗建议,大众可能会将错误但看似合理的诊断导入已吃紧的医疗体系。
研究者强调,AI 聊天机器人尚未准备好在现实世界当医生,呼吁开发者和监管机构部署 LLM 照护病患前,必须实际评估用户。