2025年04月12日64阅读AI/大数据RLHF/DPO:让大模型学会"讨好"人类SFT教会了模型说话的"格式",但它还不知道什么是"好"回答。RLHF 就是教模型"察言观色"——学会人类喜欢什么、讨厌什么。
2025年03月29日61阅读AI/大数据DeepSeek 本地部署与训练:穷人的 GPT-4 平替DeepSeek-V3 在各大榜单吊打一众模型,关键是——开源的。更关键的是——真的能在自己电脑上跑。