标签 DPO 下的文章 - 乔人尹

搜索

DPO • 共1篇

RLHF/DPO：让大模型学会"讨好"人类

RLHF/DPO：让大模型学会"讨好"人类

2025年04月12日

2

阅读

RLHF/DPO：让大模型学会"讨好"人类 SFT教会了模型说话的"格式"，但它还不知道什么是"好"回答。RLHF 就是教模型"察言观色"——学会人类喜欢什么、讨厌什么。