Tags
LLM
Learn Claude Code
DPO 的闭式最优解推导
详细梳理 PPO/DPO 到 GRPO 及其变体
详解PPO与GRPO