2025年04月12日2阅读AI/大数据RLHF/DPO:让大模型学会"讨好"人类SFT教会了模型说话的"格式",但它还不知道什么是"好"回答。RLHF 就是教模型"察言观色"——学会人类喜欢什么、讨厌什么。