光头的自留地

Learn Claude Code

Learn Claude Code 学习笔记

SQLAlchemy 2.0 类型检查实践

从误报开始，找到SQLAlchemy 2.0 类型检查最佳实践

DPO 的闭式最优解推导

DPO 里最优雅、最重要的一个数学洞见：KL 正则化 RLHF 目标的闭式关系。这个推导正是 DPO 能“跳过 Reward Model + PPO”两步，直接用人类偏好数据端到端训练策略模型的根本原因。

详细梳理 PPO/DPO 到 GRPO 及其变体

本文从统一的 RLHF 目标出发，梳理 PPO、DPO 与 GRPO 在 LLM 后训练中的技术路径、目标函数与工程取舍

详解PPO与GRPO

《A vision researcher’s guide to some RL stuff: PPO & GRPO》中文翻译与重构