强化学习与捷径思维
为什么是 Reasoning?
为何 OpenAI 选择突破传统捷径?
o1 的突破:从探索到优化
OpenAI 花重金聘请在读博士生来标注 Long CoT 数据; 没钱咋办?那就搞点人机协作标注数据(人工蒸馏 o1),降低对标注者的要求; 连找标注者的钱都没有?那就只能去蒸馏 R1 / QwQ、或者想其他的办法(Critique、PRM 等)。
插一句题外话,虽然大家都在骂 o1 隐藏了真正的思维链,只展示 Summary 的捷径版本。殊不知这个 Summary 才是优化策略的关键数据!但 OpenAI 并不害怕其他人蒸馏这些 Summary,因为蒸馏这些数据还有一个前提——基础模型的能力足够强大,不然步子迈太大还容易闪了腰。
并且 OpenAI 还将探索的成本转嫁给了用户。虽然在初期花很多钱来标注探索型数据,但现在有了 o1 后,用户使用的过程中又无形地为他标注了更多数据。OpenAI 再次实现了伟大的数据飞轮!