§6.2.8

DPO 从 RLHF 的完整推导?

手写练习
  • 实现 DPO loss 并与 TRL 对拍

付费内容

本题属于完整基础库。每个框架的第 1 章免费,其他章节购买任意套餐即可全部解锁。

全场 5 折优惠中
相关题目