DPO 的闭式最优解推导

DPO 里最优雅、最重要的一个数学洞见:KL 正则化 RLHF 目标的闭式关系。这个推导正是 DPO 能“跳过 Reward Model + PPO”两步,直接用人类偏好数据端到端训练策略模型的根本原因。

详解PPO与GRPO

《A vision researcher’s guide to some RL stuff: PPO & GRPO》中文翻译与重构