Tags
2 个页面
强化学习
从 PPO/DPO 到 GRPO 及其变体:LLM 后训练方法梳理
详解PPO与GRPO