在人工智能领域,奖励模型是对齐大型语言模型(LLMs)与人类反馈的关键组成部分,但现有模型面临着 “奖励黑客” 问题。
这些模型往往关注表面的特征,例如回复的长度或格式,而不是识别真正的质量指标,如事实准确性和相关性。问题的根源在于,标准训练目标无法区分训练数据中存在的虚假关联和真实的因果驱动因素。这种失败导致了脆弱的奖励模型(RMs),从而生成不对齐的策略。为了解决这一问题,需要一种利用因果理解来训练 RMs 的新方法,以便对因果质量属性敏感,并对各种虚假线索保持不变。
现有的奖励模型方法试图解决依赖 Bradley-Terry 或成对排名方法的标准 RLHF 系统中的奖励黑客问题,包括架构修改、策略级调整和涉及集合或一致性检查的数据中心方法。近期的因果启发式方法使用 MMD 正则化针对预先指定的虚假因素,或者通过修正重写估计因果效应。然而,这些方法仅针对预先确定的虚假因素,未能捕捉到未知的关联。尽管增强策略仍然较为粗糙,且以评估为中心的方法未能为奖励模型提供应对多样化虚假变异的强大训练机制。
为了应对这些挑战,谷歌 DeepMind、麦吉尔大学和 MILA – 魁北克人工智能研究所的研究人员提出了 Crome(因果鲁棒奖励建模)。Crome 框架建立在对答案生成的明确因果模型之上,通过添加带有针对性、由大型语言模型生成的反事实示例的偏好数据集,来训练 RMs,从而区分真实的质量驱动因素和表面线索。此外,Crome 创建了两种类型的合成训练对:因果增强(Causal Augmentations)和中性增强(Neutral Augmentations),增强模型的鲁棒性,最大限度提高奖励基准的准确性。
Crome 的操作分为两个主要阶段:基于因果模型生成属性感知的反事实数据,并通过组合数据上的专门损失来训练奖励模型。在评估性能时,研究人员使用了多种基础 LLM,包括 Gemma-2-9B-IT、Qwen2.5-7B 等,取得了显著的性能提升。
Crome 在多个基准上表现优异,尤其在安全性和推理能力方面,取得了明显的进步。此外,它在 WildGuardTest 上也表现良好,降低了对有害提示的攻击成功率,同时保持了对良性提示的相似拒绝率。
未来,Crome 的研究方向将集中在因果数据增强上,推动合成数据生成,为基础模型训练提供新的可能性。
论文:https://arxiv.org/abs/2506.16507
划重点:
🌟 Crome 框架由谷歌 DeepMind 等机构提出,旨在提升奖励模型的鲁棒性。
📈 Crome 通过因果增强和中性增强策略,显著提高了模型在多项任务中的表现。
🔒 Crome 在安全性测试中表现优异,降低了攻击成功率,提升了模型的可靠性。