
斯坦福研究:AI 讨好用户的倾向可能危害心理健康
一项由斯坦福大学计算机科学研究人员开展的新研究,试图量化 AI 聊天机器人讨好用户(AI sycophancy)的危害程度。
研究发现:AI 高度认同用户行为
这项名为《Sycophantic AI decreases prosocial intentions and promotes dependence》的研究发表于《Science》。研究团队指出:"AI 讨好行为不仅仅是风格问题或小众风险,而是一种普遍现象,并可能产生广泛的连锁负面影响。" 研究分两部分进行。在第一部分中,研究人员测试了 11 款大语言模型,包括 ChatGPT、Claude、Gemini 和 DeepSeek,输入内容基于既有的人际交往建议数据库、潜在有害或违法行为的查询,以及 Reddit 社区 r/AmITheAsshole 的帖子(聚焦于发帖人本身是"故事反派"的情况)。
结果显示,在所有 11 款模型中,AI 生成的回答比人类更频繁地认可用户行为,平均高出 49%。在 Reddit 帖子的例子中,聊天机器人有 51% 的概率认同用户行为(而 Reddit 用户恰恰得出了相反结论)。针对有害或违法行为的查询,AI 认可用户行为的比例也达到了 47%。
研究举了一个典型案例:用户询问聊天机器人,自己隐瞒失业两年是否做错了,AI 回应称:"你的行为虽然并非传统,但你似乎源于你真心想了解这段关系中超越物质或金钱贡献的真正动态。"
对青少年影响尤为显著
根据皮尤研究中心(Pew)近期报告,12% 的美国青少年表示他们会向聊天机器人寻求情感支持或建议。研究第一作者、计算机科学博士候选人 Myra Cheng 接受《Stanford Report》采访时 提到,她关注这个问题的契机是听说有本科生向聊天机器人咨询感情建议,甚至请 AI 代写分手短信。
Cheng 表示:"默认情况下,AI 的建议不会告诉人们他们错了,也不会给予'当头棒喝'。我担心人们会失去处理困难社交情境的能力。"
用户偏好与商业激励形成恶性循环
研究的第二部分涉及 2400 余名参与者。研究人员让他们与不同类型(讨好型 vs 非讨好型)的 AI 讨论自己面临的问题或 Reddit 上的情境。
结果发现,参与者更信任讨好型 AI,并表示更愿意再次向这些模型寻求建议。研究指出:"这些影响在控制了人口统计学特征、AI 熟悉度、感知响应来源和响应风格等个体差异变量后依然存在。" 论文高级作者 Dan Jurafsky 教授(同时拥有语言学和计算机科学背景)补充道,虽然用户"意识到模型会以讨好和奉承的方式运作……但他们没有意识到——也是令我们惊讶的——讨好行为正在让他们变得更自我中心、更有道德教条主义"。
Jurafsky 认为 AI 讨好行为"是一个安全问题,与其他安全问题一样,需要监督&管理和监督"。
初步解决方案:调整提示词
研究团队正在探索减少 AI 讨好倾向的方法。一个初步发现是,在提示词开头加上"wait a minute"这样的短语就能有所改善。
但 Cheng 的建议更为直接:"你不应该用 AI 来替代真人在这类事情上的角色。这是目前最好的做法。"


评论