开发
Learn Claude Code
Learn Claude Code 学习笔记
开发
SQLAlchemy 2.0 类型检查实践
从误报开始,找到SQLAlchemy 2.0 类型检查最佳实践
科研
从 PPO/DPO 到 GRPO 及其变体:LLM 后训练方法梳理
本文从统一的 RLHF 目标出发,梳理 PPO、DPO 与 GRPO 在 LLM 后训练中的技术路径、目标函数与工程取舍
科研
详解PPO与GRPO
《A vision researcher’s guide to some RL stuff: PPO & GRPO》中文翻译与重构