cover of episode 【OpenAI】强化微调ReFT | OpenAI圣诞活动Day 2 | 用强化学习技术进行微调 | o1-mini超过o1 | 评分器 | 预热和强化学习 | 取代SFT

【OpenAI】强化微调ReFT | OpenAI圣诞活动Day 2 | 用强化学习技术进行微调 | o1-mini超过o1 | 评分器 | 预热和强化学习 | 取代SFT

2024/12/9
logo of podcast 最佳拍档

最佳拍档

Frequently requested episodes will be transcribed first

Shownotes Transcript

今天我们继续OpenAI 12天连播的第二天,仍然是短短二十分钟,但是这次登场的,则是强化微调,Reinforcement Fine-Tuning。

https://openai.com/12-days/?day=2 https://openai.com/form/rft-research-program/ ReFT: https://arxiv.org/abs/2401.08967

成为此频道的会员,即可享受提前一天,观看频道最新发布视频的福利: https://www.youtube.com/channel/UCGWYKICLOE8Wxy7q3eYXmPA/join