找回密码
 立即注册
在OpenAI连续12天的技术发布会上,一项名为RFT(Reinforcement-based Fine-Tuning,基于强化学习的微调)的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调,仅需少量标注数据即可显著提升模型在特定场景下的性能。2月28日,百度智能云千帆ModelBuilder成为了国内首个全面支持RFT训练方法的大模型开发平台,为企业开发者提供更高效、低成本的大模型开发模式,进一步降低生成式AI应用落地的门槛。
什么是RFT:大模型高效训练的新范式
RFT融合了强化学习(RL)和微调(Fine-tuning)技术,突破了传统训练依赖大量人工标注偏好数据的局限,借助Grader比较模型Response和Reference进行打分(0 - 1),自动分配奖励信号,驱动模型优化。
这一训练方式的优势在于,AI可以自己思考,强化导致正确答案的思维路径、抑制导致错误的思维路径,可以在用户的少量专业数据中完成推理,从而完成强化学习,迅速达到细分领域的专家水平。

ChMkK2fT0heIK5ExAABGjJtdSJgAAp_gAG3zGwAAEak975.jpg

ChMkK2fT0heIK5ExAABGjJtdSJgAAp_gAG3zGwAAEak975.jpg


RFT融合强化学习(RL)与监督微调(SFT),通过以下机制突破传统训练瓶颈:
1、   奖励信号自动化引入Grader模块(基于规则或参考答案的评分器),对比模型输出与参考答案(Reference),自动生成0-1分值的量化奖励信号,替代人工偏好标注。
2、   策略优化智能化基于PPO算法构建强化学习框架,驱动模型通过自主探索优化输出策略,避免传统SFT的局部最优局限。
千帆ModelBuilder RFT训练全流程解析:RFT如何让模型实现"思维跃迁"
在千帆ModelBuilder的实测中,RFT展现出"超强增效"特性:
数据效率:复杂场景下,仅需4500条训练数据即可完成训练,并保证模型效果。
泛化能力:在3-8人复杂度递增的"好人/坏人"推理场景中,平均准确率相比base模型提升29%。
训练天花板:在复杂问题场景下,RFT的训练能力天花板更高。
千帆ModelBuilder上的RFT训练三步曲
Step 1:创建RFT训练任务
在千帆ModelBuilder上,选择「模型精调」→「偏好对齐」→「RFT」,并选择base模型DeepSeek-R1-Distill-Qwen-7B,同时配置奖励规则(平台预置四种规则,奖励规则中定义了如何评估模型输出效果的规则)。

ChMkK2fT0heIT9dFAACN9J5cnzcAAp_gAG3PmAAAI4M351.jpg

ChMkK2fT0heIT9dFAACN9J5cnzcAAp_gAG3PmAAAI4M351.jpg



ChMkK2fT0heIBg8vAACSLusAsV4AAp_gAG4pQEAAJJG704.jpg

ChMkK2fT0heIBg8vAACSLusAsV4AAp_gAG4pQEAAJJG704.jpg


Step 2:准备训练数据
采用开源数据集K-and-K/knights-and-knaves(约4,500条数据);平台数据配置中,数据格式需包含Prompt(问题)与Response(参考答案)。

ChMkK2fT0heIBBa4AACR2ayN5csAAp_gAG4ExAAAJHx801.jpg

ChMkK2fT0heIBBa4AACR2ayN5csAAp_gAG4ExAAAJHx801.jpg


Step 3:模型部署与效果快速评估
配置成功后,在平台即可一键开启模型训练,训练完成后一键部署至千帆ModelBuilder,同时平台支持创建自动评估任务,通过ERNIE-4.0-Turbo作为裁判员模型并自定义评估指标,快速得到模型评估结果。
效果验证—RFT“超强增效”:训练后的模型回答准确率大幅提升,超越OpenAI o1模型!
整个训练过程,基于百度智能云千帆ModelBuilder平台,利用base模型DeepSeek-R1-Distill-Qwen-7B使用约4500条少量数据,完成RFT训练;根据回答准确率以及case示例分析,得出2个关键结论。
准确率跃升,训练天花板更高:在2-8人复杂度递增的场景中,RFT后的DeepSeek-R1-Distill-Qwen-7B平均准确率提升28%,超越了OpenAI o1;同时对比SFT-全量更新后的模型回答准确率,发现在逻辑推理场景下,RFT的效果提升更显著,训练天花板更高。

ChMkK2fT0hiIMTO_AAGf3MTkFe0AAp_gAG56DcAAZ_0650.jpg

ChMkK2fT0hiIMTO_AAGf3MTkFe0AAp_gAG56DcAAZ_0650.jpg


泛化能力增强:RFT前Base模型的输出答案以及思考过程均有明显错误,并且当题目难度越高的时候甚至模型回答语言已经错乱;而RFT后,模型输出的答案准确,思考过程也更加清晰。
分享至 : QQ空间
收藏

12 个回复

倒序浏览
感谢回复,解决疑惑。
回复 使用道具 举报
感谢分享,继续学习。
回复 使用道具 举报
感谢楼主,学到了知识。
回复 使用道具 举报
希望这个论坛能够成为我们共同学习和成长的家园。
回复 使用道具 举报
这个观点很新颖,值得一试。
回复 使用道具 举报
这个方法很实用,值得一试。
回复 使用道具 举报
看了这个帖子,感觉自己的知识储备又增加了。
回复 使用道具 举报
感谢大家的分享和建议,让我受益良多。
回复 使用道具 举报
讨论热烈,学习到了。
回复 使用道具 举报
12下一页
您需要登录后才可以回帖 登录 | 立即注册