1733 words
9 minutes
审计对齐
TL;DR

提出了一种名为 Deliberative Alignment 的方法,用于训练语言模型在回答前先对安全策略进行推理。通过自动生成和筛选的(prompt, CoT, output)三元组进行 SFT,再结合基于安全规范打分的 RL,DA 成功让模型学会在不需要上下文的情况下引用策略条款进行拒绝决策。在多个基准测试上,DA 显著提升了模型的安全性、稳定性和泛化能力,特别是在推理能力强的模型(如 o3-mini)中效果尤为明显。

Background & Motivation#

现代 LLM 通过 SFT 和 RLHF 进行 Safety Alignment,以减少有害的输出,尽管这些方法不断进步,但仍然存在缺陷:模型可能仍然会被欺骗泄露有害内容,或者拒绝合法的请求。

这些失败源于现代安全训练中的两个局限性。首先,LLM 必须使用固定的计算量对用户请求进行即时响应,即使对于复杂的安全场景也没有时间进行仔细考虑。其次,LLM 必须从大量标注示例中间接推断潜在的安全标准,而不是直接学习控制它们的安全规范。这种对隐式学习的依赖导致了数据效率低下,并使得模型在面对不熟悉的情景或对抗攻击时难以泛化。同时随着 LLM 能力的提升,能够提供大规模人工标注数据的人类数量减少,使得安全性和能力的提升难以同步扩展。在这种情况下,OpenAI 观察到在可以访问他们实际安全策略的情况下,o1 模型通常能够正确推理如何回应可能不安全的提示。因此,一种自然的方法是简单地在部署时将所有安全规范文本放在上下文中(system prompt),并指示模型在回答之前检查所有策略。然而,这种方法会带来明显的延迟成本:在大多数情况下,在多页安全规范上进行推理对于无害的用户提示来说是过度的。此外,如果模型未能遵循指令,可能会遗漏政策中的相关内容并输出不安全的内容。

Method#

作者提出 Deliberative Alignment 训练方法,该方法训练 LLM 在生成答案之前显式地通过安全规范进行推理。DA 方法分为两个核心极端,结合了过程和结果的监督。在第一阶段,模型通过在(prompt, CoT, output)数据上进行 SFT,教会模型在 CoT 中直接推理安全规范,其中 CoT 引用了这些规范。第二阶段,使用高计算量的 RL 来训练模型更有效的思考。

SFT 阶段,作者并非依赖人工标注数据,而是使用特定类别安全策略上下文的模型自动生成每一个 prompt 的推理过程和回答,并将这些生成内容构造成三元组(prompt, CoT, output),CoT 中明确引用策略文本中的条款,并解释该条款如何适用于用户的请求。随后,为了进一步提高数据质量和训练效率,研究团队调用模型作为 judge model,对这些生成的 CoT 进行打分评估,仅保留那些推理合理、引用准确、逻辑连贯的样本作为训练数据。这种自动化构建 + 自动化过滤的机制极大提升了数据规模和结构的一致性,避免了人工标注的不稳定性和高成本,使得整个安全推理流程可以在无监督扩展的条件下依然保持语义质量和策略一致性。

而在 RL 阶段,模型训练不再依赖中间的 CoT 内容,而是再次调用之前作为过滤器的 judge model(允许访问安全规范)来对模型生成的响应进行评分,进一步引导其朝向更合规的行为模式。尽管这些数据在最初 SFT 阶段中是三元组形式的,并明确暴露了推理链,但 RL 阶段特意将 CoT 隐藏,避免模型直接模仿已有的 reasoning 结构,而是希望它自主学会策略引用与安全判断。这样做的目的,是为了降低模型依赖或作弊式套用 CoT 的风险,从而逼迫它内化判断标准,而不是走记忆捷径。这种奖励信号并不是作用于所有模型,而是只用于训练更高能力、更偏部署的 o1 和 o3-mini 两个模型,而 o 系列的基础能力仍然是通过第一阶段的 SFT 建立的。

Ablation Study#

OpenAI 在公开与内部非公开的 benchmarks 上展示了其不同推理能力模型在使用 Deliberative Alignment 方法对齐后的 safety 和 robustness。结果显示推理能力越强的模型越适用于 DA,尤其是在 o3-mini 上,DA 带来的提升最为显著,不仅在拒绝有害请求的准确率上领先原始模型,更关键的是它在面对没见过的 prompt、甚至新策略文本时依然能保持稳定、结构化的拒绝行为,表现出了强大的泛化性,这说明推理能力越强的模型越能在 DA 的训练框架下学会“引用规则去判断”的通用模式。相对地,那些能力较弱的模型虽然也在对齐后有所提升,但 reasoning 的深度与策略引用的精度都明显逊色,一些拒绝响应但 CoT 靠近模板句或显得理由不足。作者也通过控制变量的方式拆解了 DA 的几个关键组成部分,比如移除推理链、取消 policy grounding 或省略 RL 阶段,结果发现这三个部分缺一不可:一旦拿掉 reasoning,模型倾向于照搬答案;一旦不加 grounding,策略引用就会变得随意;而没有 RL 的话,模型即便见过合理的 reasoning 模板,也不太愿意主动思考。这些实验基本确认了 DA 的有效性不是靠 prompt 技巧或任务偏好凑出来的,而是真正从机制上让模型对“判断为什么拒绝”这件事产生了某种内部结构。

Rating#

作为业界 techiqual report,这篇文章保持了重数据、重实验、重结果而轻方法、不开源的风格。尚不清楚 DA 在轻量级开源模型上的效果,但是实验结果很有 insight,可以预见的是:未来当模型的推理能力达到一定程度后,把简单的安全规范塞进上下文即可让模型自我推理完成对齐。

审计对齐
https://fuwari.vercel.app/posts/deliberative-alignment/
Author
Rui Wu
Published at
2025-06-25
License
CC BY-NC-SA 4.0
Comment seems to stuck. Try to refresh?✨