§18.1.26

如何在 MLLM 上复现 R1 风格的 RL(数据 / 奖励 / 训练稳定性)?

付费内容

本题属于完整基础库。每个框架的第 1 章免费,其他章节购买任意套餐即可全部解锁。

全场 5 折优惠中
相关题目