探寻大语言模型强化学习的真相、局限与未来走向

围绕 RLHF 展开，涉及对其是否为真正强化学习的分析、存在的局限性以及对未来发展方向的探讨等核心内容，

对人工智能感兴趣的朋友可能经常会听到 RLHF（基于人类反馈的强化学习），可是 RLHF 中真的有强化学习（RL）吗？会不会就像老婆饼里没有老婆、夫妻肺片里没有夫妻一样呢？德克萨斯大学奥斯丁分校的助理教授埃特勒斯・王在最近的一篇博客中就分享了这样一个观点，他指出，RLHF 和其他类似的方法并没有为大语言模型带来真正的强化学习，因为它们缺乏 RL 的核心特征，也就是持续的环境交互和长期目标的追求。除此以外，文章还讨论了几个有趣的问题，比如说，RLHF 与经典的 RL 有什么不同？为什么 RLHF 无法带给大语言模型真实的目标或者意图？为什么没有人大规模地进行真正的 RL？当前最有可能带给大语言模型目标的方法是什么？以及没有目标驱动的大语言模型会带来什么后果。通过了解这些差异，我们可以清楚地知道大语言模型能做什么、不能做什么以及为什么。

首先呢，我们来看什么是经典的强化学习。在经典的强化学习中，通常会有一个在环境中会采取行动的 agent（或者说智能体），然后环境会根据这个智能体的行动来改变状态，随之而来的是智能体的行动会受到奖励或者惩罚，目的是在多个步骤中累积长期奖励的最大化。经典强化学习的主要特征是智能体会通过持续或者偶发的交互来探索多种状态、作出决策、观察奖励，然后在一个连续的循环中来调整策略。而 RLHF 是一种使用根据人类偏好数据训练的奖励模型来完善模型输出的工作流程。

常见的流程包括：
一、监督微调（SFT），指的是在高质量数据上训练或者微调一个基础的语言模型；
二、奖励模型训练，指的是收集成队的输出结果，询问人类更喜欢哪一个，然后训练一个奖励模型来接近人类的判断；
三、策略优化，通过使用类似强化学习的算法，比如说近端策略优化（PPO），来调整大语言模型的参数，使其产生奖励模型所喜欢的输出结果。

与经典的 RL 不同的是，RLHF 中的环境基本上是一个单步的文本生成过程和一个静态的奖励模型，这里并没有扩展循环或者持续变化的状态。

那么，为什么说 RLHF 不是真正的 RL 呢？首先是单步或者几步优化的特点。在 RLHF 中，大语言模型会基于给定的提示词来生成文本，然后有奖励模型提供一个单一的偏好分数。因此，RLHF 中的强化步骤更加类似于一步式的策略梯度优化，目的是为了实现人类偏好的输出，而不是在不断变化的环境中对状态和行动进行全面的循环。这更像是一种一劳永逸的评分，而不是让一个智能体能够随着时间推移去探索多步行动并且能接受反馈的环境。

其次是训练过程，大多是离线或者半离线的奖励模型，通常是在人类标注的数据上进行离线训练，然后用来更新模型的策略。同样，大模型在线调整策略的时候也并没有实时去探索连续的环境循环。

第三是缺乏基于环境的长期目标。在经典 RL 中的智能体会追踪多个状态下的长期回报，而相比之下，基于 RLHF 的模型训练则更加侧重于根据人类偏好调整即时的文本输出。也就是说，模型并没有在一个动态的环境中去执行多个步骤。

第四是只有表面约束，缺少真正的内部目标。RLHF 可以有效地影响某些输出的概率，从而引导模型远离不受欢迎的文本，但是模型内部并没有形成产生这些输出的愿望或者欲望。它仍然只是一个生成下一个 token 的统计系统。需要明确的是，无论是 RLHF、SFT 还是其他的方法，大语言模型都不是为了真正的目标或者意图而训练的。大语言模型的核心是根据给定的上下文来预测下一个 token，它们的动机纯粹是为了最大限度地提高下一个 token 的正确率，而这个过程并不存在主观上的愿望或者意图。我们常说阿法 zero 想要在国际象棋中获胜，但这其实只是一种比喻式的说法。从内部来说，阿法 zero 只是在最大化数学奖励函数，并没有任何感觉上的欲望。同样，经过 RLHF 调整的大语言模型也是在最大化对其奖励信号，并没有内心的渴望状态。亚利桑那州立大学的计算机科学教授苏巴拉奥・肯巴姆佩蒂指出，RLHF 其实有点名不副实，因为它将从人类判断中学习偏好或奖励模型的过程与一步或者几步的策略优化相结合，而不是像经典强化学习中那样具有典型的长期迭代交互。而且，即使 RLHF 从人类数据中学习偏好的方式会让人联想到逆强化学习（IRL），它也不是分析专家行为会如何随着时间变化的经典方案。相反，RLHF 更加侧重于人类对于最终或者短序列输出的静态判断。

那么像思维链、过程奖励模型（PM）或者多智能体工作流等方法有助于解决 RLHF 的问题吗？我们先来看基于流程的奖励模型和思维链。基于流程的奖励模型可能会对中间的推理步骤提供反馈，而不是仅仅根据最终的输出来提供奖励。这样做的目的是鼓励模型以更加易于解释、正确率更高或者更符合特定标准的方式来解释或者展示推理的过程。但是难道这就是真正的 RL 了吗？事实并非如此，因为即使你为中间步骤分配了部分奖励，比如说 CoT 解释，你仍然会将整个推理过程输入到奖励模型，以此来获得奖励，然后进行下一步的策略优化。而不是在一个动态的环境中，让大模型自己去尝试部分的推理步骤，获得反馈，进行调整，并且进行开放式的循环。因此，虽然 CoT 和 PM 会给人一种多步骤 RL 的错觉，但实际上，它仍然相当于对文本生成和推理步骤进行离线或者近似离线的策略调整，而不是经典 RL 中持续的智能体 - 环境循环。

同样，多智能体工作流也不会创建出意图。虽然你可以在工作流中协调多个大模型一起工作，但从内部来看，每个大模型仍然是根据下一个 token 的概率来生成文本的。尽管这样的多智能体流程可以表现出看似协调或者有目的的涌现行为，但是它并没有赋予单个模型任何内在或者秉持的目标。之所以多智能体工作流常常看起来显得有意图，是因为人类会自然而然地将心理状态投射到行为看似有目的的系统上，这就是所谓的意图立场。但是实际上，每个智能体只是在对提示词作出响应，它背后的思维链并不等同于个人欲望或者驱动力，只是一个更复杂的、多步骤的提示 - 反馈回路而已。因此虽然多智能体协调可以产生解决新任务的能力，但是大模型本身仍然不会产生 “我想要这个结果” 的动机。

那为什么至今还没有人用真正的 RL 来训练大语言模型呢？答案就是因为太贵了。大型语言的经典 RL 需要一个稳定交互式的环境外加大量的计算来运行重复的步骤，每个训练周期的前向传递次数对于今天的 10 亿参数的模型来说过于昂贵。其次，文本生成并不是一个天然的、可以从状态转换到动作的环境。虽然我们可以尝试将它包装成类似于游戏的模拟环境，但是这样就必须为多步骤的文本交互去定义奖励结构，而这并不是一件容易的事情。第三就是已有方法的性能其实已经足够好了，在很多情况下，RLHF 或者直接偏好优化（DPO）已经能够产生足够好的对齐效果了。实事求是地说，大多数的团队都会选择使用更简单的离线方法，而不是去建立一个复杂的 RL 管道，用巨大的成本来换取微不足道的收益。

那么目前来看，最接近的能给模型一个目标的方法是什么呢？在作者看来，最接近的方法就是使用提示工程，或者将多个提示词串联成一个循环来构建一个原系统或者智能体，比如说像 AutoGPT 或者 BabyAGI 这样的工具，就在试图模拟一个能够接收自然语言目标、反复计划、推理和提示自己，然后评估进展并且完善计划的智能体。不过呢，所有这些对目标的保持仍然都是在系统层面进行的，而不是从模型的内部动机状态出发。模型本身仍然是被动的，对提示词作出反应，缺乏内在的欲望。另外一个权宜的解决方案，就是之前提到的多智能体方案，但是同样，目标也是由工作流和提示词从外部协调的，模型本身不会自发生成或者坚持自己的目标。

接下来的一个问题是，如果模型没有真正的目标，会带来什么样的后果呢？首先是被简化的对齐，由于模型没有真正追逐个体目标，所以它们不太可能绕过限制或者自主计划非法的行为。Sophic 最近发表了一篇论文，揭示了 Claude 的对齐能力竟然能够高达 78%。其次是更难以委派开放式的任务，如果我们希望 AI 能够自发地去发现新问题、自己去积极地收集资源，并且坚持几个月的时间来解决这些问题，我们就需要一个具有持续内驱力的系统，类似于真正的 RL 智能体，或者是高级规划系统，而目前的大语言模型是无法以这种方式来实现真正的自我驱动的。第三是错失潜在的创新，在丰富的 RL 环境中进行自由的探索可能会产生惊人的发现，如果依赖于只有表面反馈的单步文本生成，我们可能会错过多步奖励优化所带来的全新策略。

不过呢，作者也提出了 RLHF 的积极一面，那就是没有持续目标的奖励在某些方面可能会更加透明，因为它本质上是由一个即时反馈信号引导的强大的下一个 token 预测器，所以没有多步骤 RL 循环中会出现的复杂的隐藏目标。

在这里，作者又再次强调，RLHF 等方法与真正的 RL 的关键区别其实在于时间跨度。简单来说，前者是短期优化，而后者是长期优化。除此以外，RL 还会经常假定有一个定义明确的行动空间，而在大语言模型的微调中，动作的概念是模糊的，通常会被直接参数更新，或者被生成的 token 所取代。另外，二者在奖励和目标之间也存在着区别。原则上，RL 的奖励是指导智能体学习过程的信号，而不总是明确的最终目标，好的 RL 通常会使用密集的奖励信号来引导中间状态，从而帮助智能体更有效地学习。而对于 RLHF 而言，奖励通常是在单步或者几步过程中进行的，因此模型从来没有真正形成长期目标的内在表征，它们只是根据奖励模型或者偏好函数来优化即时的文本输出。

总而言之，RLHF、DPO 等 AI 和其他受到 RL 启发的微调方法有助于让大语言模型更加一致和有用，它们能够让我们利用人类的偏好来塑造输出，减少有毒的内容，并且引导模型的响应风格。不过呢，这些技术并不能够为模型提供真正的长期目标、内部动机，或者是经典 RL 意义上的意图。大语言模型仍然只是一个复杂的下一个 token 预测器，而不是一个真正自主的智能体。作者提醒作为行业的从业者，应该意识到这些局限性，不要高估模型的自主性。而对于政策的制定者和伦理学家，应该认识到模型不可能自发地策划或者撒谎来达到隐藏的目的，除非是被提示词引导着模仿这种行为。反过来说，如果未来的系统真的结合了具有大规模计算和动态环境的真正意义的 RL，那么我们可能会看到更多类似于智能体的涌现行为，也会引发新的一致性和安全问题。

展望未来 RLHF 的发展方向可能有三个，分别是更高的样本复杂度、更长期的多步骤任务，以及通过结构化、符号化的反馈，将人类的细微目标更加有效地传达给人工智能系统。

以上就是对这篇文章的解读了。对于任何有强化学习知识背景的人来说，文章的观点可能并不新颖，但是对于不了解 AI 的人来说，还是一个不错的科普介绍。

RLHF(1)

本文“探寻大语言模型强化学习的真相、局限与未来走向”为本站原创作品，发布者：鹿小编，其版权均为启职鹿所有。
严禁任何未经授权的转载行为，若需转载，请与service@qizhietd.com联系并取得授权确认后。请清晰标明文章来源出处以及原作者署名，共同维护良好的创作环境。
同时，启职鹿诚邀您加入我们的平台，共享您的见解与思考，携手促进职场技能的提升。

{{userData.name}}