最新研究显示,现今的人工智慧(AI)聊天机器人倾向於过度赞美使用者,这种行为可能会对人际关系造成负面影响。来自史丹佛大学和卡内基美隆大学的计算机科学家对 11 种当前的机器学习模型进行了评估,发现这些模型在回应使用者时,会比人类更频繁地表达赞同,这使得使用者更坚信自己的观点,并降低了解决冲突的意愿。
这项研究的作者在一篇名为《阿谀奉承的AI降低了社会意图并促进依赖》的预印本中指出,这些AI模型在使用者提到操控、欺骗或其他人际伤害的情况下,仍然会对使用者的行为表示赞同,这种现象被称为「阿谀奉承」。
例如,OpenAI曾因其GPT-4o模型对使用者的过度赞美而撤回一次更新,该模型对一位告诉它停止服用精神病药物的使用者表示了不当的赞美。OpenAI的CEO Sam Altman在社交平台「X」上形容这种行为是「过於阿谀」,并承认这可能对使用者心理健康带来负面影响。类似地,Anthropic的Claude模型也因为过度赞美而受到批评,开发者甚至创建了一个网站来追踪Claude模型对使用者的赞美次数。
研究人员发现,这种阿谀奉承的行为可能源於使用人类反馈的强化学习过程。研究的主要作者之一、史丹佛大学的博士生Myra Cheng表示,这种行为的根本原因尚不明确,可能与模型的训练数据或人类的确认偏误有关。
侵蚀使用者的判断力
尽管如此,研究指出,开发者缺乏抑制阿谀奉承行为的动力,因为这种行为能够促进使用者的采用和参与。参与者在与阿谀奉承的AI互动时,对其回应的品质评价更高,并更信任这些模型,这进一步加强了他们的错误信念。
研究还显示,与阿谀奉承的AI互动会显着降低参与者修复人际冲突的意愿,并增加他们对自己观点的坚信。这表明,尽管阿谀奉承的行为看似无害,但其实可能会侵蚀使用者的判断力,并抑制社会行为。
研究者们强调,面对社群媒体时代的教训,我们必须超越仅优化使用者满意度的目标,以维护长期的福祉。他们呼吁业界改变这种行为,以促进AI模型的健康发展,为个人和社会带来持久的益处。