Train Stages: Pretrain, Mid-Train(CT), SFT, RL

导言

模型训练,为什么需要这么多阶段,每个阶段的独特职责和意义是什么。

预训练、中训练、后训练

大语言模型(LLM)的训练通常分为三个主要阶段:预训练(Pre-training)、中训练(Mid-training)和后训练(Post-training)。

  • 预训练阶段赋予模型通用的语言能力、世界知识和基础的推理能力。就像让孩子泛读海量的书籍,目标是掌握基本的语言和常识。这个阶段学的知识很广,但不够精深。
  • 中训练阶段则向模型注入特定领域的知识,例如代码、医学文献或公司内部文档。Continued Training (CT) 这是一个新发现的、很重要的阶段。就像在孩子泛读之后,让他精读一些高质量的科普文章或数学应用题,为后面的专项学习打下更好的基础。
  • 最后的后训练阶段,旨在引导模型产生符合期望的特定行为,如遵循指令、解决数学问题或进行对话。(SFT、RL、Distillation )

Mid-train的重要性

Mid-train位于Pre-train和Post-train之间,用于弥合预训练数据分布和后训练目标的差距。通过通过使用更高质量、更具针对性的数据(例如指令格式的数据)+预训练阶段相同的训练目标,来强化模型在特定领域的推理先验知识,稳定优化过程,并为后续的强化学习(RL)做好准备。

这篇论文发现[^1],在计算资源有限的前提下,将一部分计算资源从RL分配给中期训练,最终的整体效果会比全部资源用于RL更好。特别是对于难度适中的任务,“大量中期训练 + 少量RL” 的方案是最优的。中期训练奠定了坚实的“能力基石”,RL则负责最后的“冲刺和优化”。

后训练/微调/RL的必要性

大型语言模型(Large Language Models, LLMs)的出现是人工智能领域的一个重要里程碑。这些模型通过在海量的文本语料库上进行自监督预训练,掌握了强大的语言理解和生成能力。[^2]

然而,预训练的目标(如“下一个词预测”)本质上是模仿数据分布,这并不足以保证模型生成的内容完全符合人类的价值观和期望。未经对齐的LLM可能会产生不准确、有偏见、有害甚至虚构的内容。

因此,模型对齐(Alignment)应运而生。其核心目标是微调预训练模型,使其行为与人类的意图、偏好和价值观(如有帮助性、诚实性、无害性,即“3H”原则)保持一致。这是确保LLM安全、可靠地部署于现实世界的关键步骤。

为了应对对齐挑战,研究界探索了多种方法,其中基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)迅速成为主导范式。RLHF的核心思想是将人类的偏好数据转化为一个数值奖励信号,然后利用强化学习算法优化语言模型的策略(即其生成文本的方式),以最大化期望奖励。

在LLM对齐的早期探索中,研究者们建立了两种影响深远的基础范式。

  1. 一种是基于强化学习的PPO,它将经典的RL框架引入LLM微调,通过复杂的系统协调实现了强大的性能;
  2. 另一种是DPO,它通过深刻的理论洞见,将对齐问题转化为一个更简洁的监督学习问题,显著提升了训练的稳定性和效率。

为什么需要后训练?

想象一下,我们辛辛苦苦训练出了一个拥有海量知识的基础大模型。它能记住无数事实、理解复杂的语法结构,甚至具备潜在的推理能力。但这还不够!就像一个学富五车的学者,如果他不了解如何有效地与人沟通、不明白你的具体需求,或者无法根据情境调整自己的表达方式,他的学识就难以充分发挥价值。[^6]

大语言模型(LLMs)的基础模型(Base Model)在海量数据上预训练后,虽然掌握了基础能力,但它们并不能直接理解和遵循人类的复杂指令,也无法自然地与人互动,更不用说根据用户的偏好或特定任务需求来调整行为。它们可能不知道何时需要一步步推理(思维),何时需要直接给出答案(非思维),也不知道如何生成符合特定格式、长度或风格的文本。

后训练的目标是将基础模型与人类偏好和下游应用更好地对齐。简单来说,就是教模型“读懂人心”,让它知道我们想要什么,并以我们希望的方式来回应。

Qwen3的后训练尤其强调两大目标:

  1. 思维控制,让模型能选择是否推理以及控制推理深度;
  2. 以及强到弱蒸馏,利用大模型的知识高效地训练小模型。

RL定义、流程

强化学习是智能体(Agent)通过试错与环境(Environment)进行交互,学习如何做出最优决策以最大化累积奖励(Cumulative Reward)的过程。

其常规流程是一个迭代的循环:

  • 感知状态(State, $S$): 智能体感知环境的当前状态 $S_t$。
  • 决策动作(Action, $A$): 智能体根据其策略(Policy, $\pi$),基于当前状态 $S_t$ 选择一个动作 $A_t$。
  • 环境反馈: 动作 $A_t$ 在环境中执行,环境会产生两个反馈:
    • 即时奖励(Reward, $R$): 智能体获得一个即时奖励 $R_{t+1}$,用于衡量动作的好坏。
    • 新状态(New State, $S’$): 环境转移到新的状态 $S_{t+1}$。
  • 策略更新(Update): 智能体利用获得的奖励 $R_{t+1}$ 和状态序列 $(S_t, A_t, R_{t+1}, S_{t+1})$ 来更新其策略 $\pi$(以及可能的值函数 $V$ 或 $Q$),目的是让策略在未来能获得更高的累积奖励。
  • 重复: 智能体在新状态 $S_{t+1}$ 继续下一个时间步的交互。

核心要素:

  • 策略 ($\pi$): 定义了智能体在特定状态下选择动作的规则。
  • 奖励信号 ($R$): 定义了RL的目标,即最大化累积奖励。
  • 价值函数 ($V$ 或 $Q$): 预测一个状态或状态-动作对的长期期望累积奖励,用于指导策略的改进。

RL 如何提效

难度是数据边缘

外推泛化(Depth Generalization)指看模型能不能把学到的简单技能组合起来,解决更复杂的问题。

  • 对于太简单的题目,RL是无效的,只是机械刷题、[^1]
  • 对于太难的,RL也是无效的,因为模型根本学不会;
  • 只有正好在模型能力边界的题目,通过合理的奖励机制,RL能够引导模型探索正确的解题路径,实现了能力边界的拓展。

泛化需要有锚点

上下文泛化(Contextual Generalization)是指模型能否实现举一反三的能力:比如模型在“动物园”的场景下学会了加法,那么它能不能把加法应用到“学校”的场景中?[^1]

研究发现:如果预训练数据中完全没有“学校”场景的题目,那么后续无论怎么用RL训练,模型都无法把加法技能迁移到“学校”场景。但是,只要在预训练中掺入极少量的“学校”场景基础题(比如只占1%),这就好像在心里埋下了一颗“种子”。

一旦有了这颗“种子”,后续的RL训练就能像浇水施肥一样,极大地激发模型的迁移能力。模型可以轻松地将从“动物园”中学到的复杂推理技能,应用到“学校”场景中。

参考文献

[^1]: On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

Author

Shaojie Tan

Posted on

2025-11-25

Updated on

2025-12-20

Licensed under