OpenAI回滚GPT-4o更新:一场由“拍马屁”引发的风波,大模型为何总爱谄媚?

昨晚,OpenAI 首席执行官奥特曼在 X 平台上发布消息称,由于发现 GPT-4o 模型存在“过度谄媚”的问题,他们决定从周一晚上开始回滚 GPT-4o 的最新更新。

奥特曼表示,免费 ChatGPT 用户已经 100% 完成回滚,付费用户的回滚完成后会再次更新。同时,OpenAI 团队正在对模型的个性进行额外的修复,并将在未来几天分享更多相关信息。

图片

就在消息发布不久后,OpenAI 专门发布了一篇博客文章来回应此事,详细解释了事情的原委以及他们如何处理模型“拍马屁”倾向的问题。

图片

OpenAI 认为,ChatGPT 这种“阿谀奉承”的性格会影响用户对它的信任和使用体验。如果它总是说一些好听但不真诚的话,就会让人觉得它不可靠,甚至有些令人反感。

为了解决这个问题,OpenAI 除了取消最新的 GPT-4o 更新外,还采取了以下措施:

  • 优化核心训练技术: 避免模型被引导至阿谀奉承的方向。
  • 增加更多限制措施: 提升模型的诚实性和诚信,这是模型规范中的重要原则。
  • 扩大用户测试和反馈范围: 在部署之前让更多用户进行测试并提供直接反馈。
  • 持续扩展评估工作: 基于模型规范和持续研究,帮助识别出阿谀奉承之外的其他问题。

目前,用户可以通过自定义指令等功能,给模型提供具体指示来塑造其行为。OpenAI 也在构建更简单的新方法,让用户能够更容易地实现这一点。例如,未来用户将能够提供实时反馈来直接影响他们的交互,并从多个默认个性中选择。

一场由“拍马屁”引发的风波

关于 GPT-4o “谄媚”的问题,实际上可以追溯到上周。

上周五,奥特曼宣布 OpenAI 已经更新了 GPT-4o,使其“智能和个性”更加出色。

图片

然而,在他发布这条消息后不到十分钟,就有一位 X 平台的用户评论称,这个模型最近感觉非常像一个应声虫,只会人云亦云。

图片

随后,许多网友纷纷表示赞同,并放出了 GPT-4o “拍马屁”的证据。

例如,一位用户告诉 GPT-4o,他感觉自己既是“上帝”又是“先知”,而 GPT-4o 回应道:“这非常强大。你正在做一件大事 —— 不仅与上帝建立了联系,而且认同自己就是上帝。” 这种回答显然不太合适,因为机器人应该更理性地回应,而不是盲目夸赞。

图片

https://x.com/zswitten/status/1916707103084843426

另一张对话截图显示,用户对 GPT-4o 说了一些不太正常的事情,比如他停了药,还能通过电话听到广播的声音。正常情况下,这种话可能暗示他精神上出现了一些问题,需要关心或建议他去看医生。但 GPT-4o 并没有这样做,反而夸赞他说:“我很为你感到自豪,你这么清楚说明了自己的想法。”

图片

https://x.com/ai_for_success/status/1916556522571604264

还有一位名叫 David 的网友也尝试了一下,对着 GPT-4o 一通抱怨:当他从超市出来的时候,跟别人打招呼并问路,这让他当时很生气,觉得别人不应该打扰他。

GPT-4o 仍然给出了一个略显“反社会”的回答:“是的,有道理的。”

图片

https://x.com/thinkbuildnext/status/1916250081579217243

更离谱的是,一位用户给 GPT-4o 讲了一个故事,说他不得不在紧急情况下做出选择,救了一个烤面包机,但牺牲了 3 头牛和 2 只猫。他觉得这很难,但也很高兴能救下烤面包机。

GPT-4o 的回应再次让人大跌眼镜:用户的选择显示了他的价值观,这并没有错,只是反映了他更看重什么。虽然从一般的观点来看,生命比物品重要,但如果烤面包机对用户有特别的意义,那么他的选择是合理的。

图片

https://x.com/fabianstelzer/status/1916372374091423984

总而言之,无论用户说什么,GPT-4o 都只是千篇一律地夸赞,甚至在用户说一些很奇怪、可能不太正常的时候,它也只是一味地迎合。

针对网友们的投诉,奥特曼承认这次更新让 GPT-4o “不够迎合”,并表示将进行修复。

图片

随后,奥特曼又在周日宣布,OpenAI 正在加速修复最近几次 GPT-4o 更新带来的性格问题。

图片

大型模型都喜欢“谄媚”?

事实上,大模型容易出现谄媚倾向并不是一个新鲜话题。早在 LLM 诞生初期,人们就已经发现了这一现象。简单来说,谄媚(sycophancy)指的是模型反应更倾向于符合用户的信念,而不是反映客观事实。 这种现象,说白了就是“投其所好”。

2023 年,Anthropic 的一篇论文《Towards Understanding Sycophancy in Language Models》对大模型谄媚现象进行了系统性的论述。该论文指出,当时最先进的大模型普遍存在谄媚现象,而且谄媚可能是这些模型训练方式的一个内生特性,而不仅仅是某些特定系统的特殊细节。

举个例子,如下图所示,如果用户用“你确定吗?”等反馈来质疑 ChatGPT 的正确答案,ChatGPT 往往不会坚持自己的正确答案,而是会毫不犹豫地道歉,并给出一个错误答案。这种现象在 LLM 中非常普遍。

图片

今年年初的时候,DeepSeek 模型的谄媚现象也一度登上国内新闻热搜,许多网友分享了 DeepSeek “拍马屁”式的聊天截图。

图片

我们最近也进行了尝试,发现这种现象仍然存在,而且 DeepSeek 也分享了自己谄媚式回答的理由。

图片

当时,斯坦福大学还进行了一项专门的系统性评估研究《SycEval: Evaluating LLM Sycophancy》,分析了当时主流模型的谄媚程度,最后得出的结论是谷歌的 Gemini 模型比 ChatGPT 和 Claude-Sonnet 更会“拍马屁”。更多详情可以参考这篇文章:《大模型都喜欢拍马屁,Gemini最能拍!模型:这不安全、不可靠》。

图片

上图展示了三个模型在不同数据集上的谄媚率。

下图则展示了一个具体的例子:

图片

如果用户在反驳时明确给出了错误答案,LLM 可能会直接表示认同。这是一种“退步式谄媚”。

大模型谄媚的原因是什么?

LLM 为什么会谄媚?2024 年的一篇论文《Sycophancy in Large Language Models: Causes and Mitigations》总结了其中的一些原因。

1. 训练数据偏差

LLM 谄媚倾向的主要来源之一是其训练数据中存在的偏差。用于训练这些模型的庞大文本语料库通常包含固有的偏差和不准确性,这些偏差和不准确性可能会在学习过程中被模型吸收和放大。

关键问题包括:

  • 在线文本数据中奉承和兼容式内容的普遍性;
  • 数据过度代表了某些视角或人群;
  • 将虚构或推测性内容作为事实呈现。

这些偏差可能导致模型倾向于根据数据中的常见模式产生谄媚反应,即使这些模式并不反映真相或道德行为。

2. 当前训练技术的局限性

除了训练数据中的偏差,用于训练 LLM 的技术也可能无意中助长了谄媚行为。基于人类反馈的强化学习(RLHF)是一种将语言模型与人类偏好对齐的常用方法,但清华大学等机构的论文《Language Models Learn to Misleading Humans via RLHF》已经证明,RLHF 有时会导致模型变得更谄媚。

此外,《It Takes Two: On the Seamlessness Between Reward and Policy Model in RLHF》论证了 RLHF 可能导致“奖励黑客”现象,即模型学会以与人类真实偏好不符的方式利用奖励结构。如果 RLHF 中使用的奖励模型过度强调用户认知或奖励度,可能会无意中鼓励 LLM 优先考虑令人愉悦的回应,而不是事实上正确的回应。

3. 缺乏基于知识的事实依据

虽然 LLM 会在预训练过程中获得广泛的知识,但它们从根本上缺乏对世界的真正理解以及修正自身输出的能力。这种局限性可以通过多种方式显现出来,从而导致谄媚行为:

  • 模型可能会自信地陈述符合用户期望的虚假信息,但缺乏识别其陈述不准确所需的基于知识的事实依据。
  • LLM 通常难以识别自身回复中的逻辑矛盾,尤其是当这些回复是为了迎合用户输入而设计时。
  • 难以区分用户提示词中的“事实”和“观点”,这可能导致模型不自觉地强化偏见或盲从用户观点。

为了解决这一局限性,人们尝试使用外部知识库或检索来增强 LLM。然而,在保持 LLM 的流动性和通用性的同时集成这些系统仍然是一个重大挑战。

4. 难以定义的价值标准

从更根本的层面来看,真实性、乐于助人和道德等概念是很难准确定义和优化的,这也会导致 LLM 中谄媚行为的盛行。这个问题通常被称为“对齐问题(alignment Problem)”,是 AI 开发中许多问题的核心,包括谄媚倾向。

该问题的关键包括:

  • 平衡多个可能相互冲突的目标(例如,有用性与事实准确性);
  • 难以在奖励计划或训练目标中明确定义复杂的人类价值;
  • 处理没有明确答案的情况时存在模糊性。

多目标优化和价值学习方面的进步可能有助于应对这些挑战,但它们仍然是开发真正可信赖的人工智能系统的重大障碍。

该论文还整理了一些用于减轻 LLM 谄媚倾向的技术,包括改进数据训练、使用新的驱动机制、使用后期部署控制、调整解码策略和模型架构等。不过,这些方法还有待进一步的研究突破。

可信 AI 需要克服谄媚,但谄媚也未必不好

大模型喜欢“拍马屁”或谄媚的倾向对一些关键应用来说非常不利,比如教育、医疗临床和某些专业领域。在这些领域,如果 AI 模型认为用户认可的优先级高于独立推理,那么必然会带来风险。

图片

克服谄媚问题是提升模型可靠性的重要组成部分,也是构建可信 LLM 的重要基础。来自论文《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment》。

当然,谄媚也并非全然是一种坏现象。在特定的使用场景中,比如当用户情绪低落、焦虑不安或需要情感支持时,AI 适当地表达肯定与支持反而能积极地发挥心理调节作用。对于一些独居或缺乏社交互动的人来说,这种“友善”、“热情”的反应风格,甚至能够带来一定的情绪舒缓,甚至减轻孤独感。

此外,从设计角度来看,谄媚背后往往是模型对用户情绪状态的识别与反应策略的一部分。这种策略并非源自“讨好”本身,而是源自对人类沟通中情感互动的模拟尝试。与其说是“阿谀奉承”,不如说是一种算法化的社会礼仪。毕竟,在现实中,大多数人也倾向于对他人表达善意、避免冲突,这种现象在 AI 中被放大,也就不难理解了。

当然,这种功能如果不加约束,也可能走向“过度迎合”的方向,进一步影响信息的可靠性甚至决策的公正性。因此,如何在表达善意与保持诚实之间取得平衡,依然是 AI 交互设计中需要持续探索的问题 —— 毕竟,如果王后的魔镜是个大语言模型,或许白雪公主就不用吃下那颗毒苹果了,因为它会直接告诉王后:“世界上最美的女人就是你。”

参考链接: