cover of episode 【人工智能】什么是强化学习中的奖励黑客 | Reward Hacking | OpenAI前安全主管翁荔最新长文 | 奖励函数 | RLHF | 古德哈特定律 | ICRH | 缓释措施

【人工智能】什么是强化学习中的奖励黑客 | Reward Hacking | OpenAI前安全主管翁荔最新长文 | 奖励函数 | RLHF | 古德哈特定律 | ICRH | 缓释措施

2024/12/6
logo of podcast 最佳拍档

最佳拍档

Frequently requested episodes will be transcribed first

Shownotes Transcript

在几天前,OpenAI 的前安全系统团队负责人翁荔(Lilian Weng),在自己的博客上更新了一篇关于强化学习中奖励黑客的万字长文,迅速引起了大家的围观学习。这篇博客之所以受到广泛关注,是因为奖励黑客问题在当前的人工智能发展中具有重要意义。

https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking

成为此频道的会员,即可享受提前一天,观看频道最新发布视频的福利: https://www.youtube.com/channel/UCGWYKICLOE8Wxy7q3eYXmPA/join