Reinforcement Learning¶

最近Deepseek的R1模型爆火了，在这之前OpenAI的o1模型也声势浩大。

它们都使用了类似的技术：强化学习（Reinforcement Learning, i.e. RL）。