从误报开始,找到SQLAlchemy 2.0 类型检查最佳实践
DPO 里最优雅、最重要的一个数学洞见:KL 正则化 RLHF 目标的闭式关系。这个推导正是 DPO 能“跳过 Reward Model + PPO”两步,直接用人类偏好数据端到端训练策略模型的根本原因。
本文从统一的 RLHF 目标出发,梳理 PPO、DPO 与 GRPO 在 LLM 后训练中的技术路径、目标函数与工程取舍
《A vision researcher’s guide to some RL stuff: PPO & GRPO》中文翻译与重构