我大概读了10分钟左右,只看了几个最关键的部分,这里简单分享一下。总体感觉是没有太过惊艳的新方法,还是已知的方法优化与新组合,但是带来了实在的性能提升。
下面我列一下比较让我印象深刻的地方:
使用了通义千文作为基础模型。相当是侧面认可了Qwen的基座能力。
有一个版本,完全没有使用监督数据,也就是没有做SFT的训练。这个在最初也是大家的努力方向,只是现在实现出来了,相当于进一步的降本。对于标注团队,不是好消息。
将R1推理模型蒸馏到一个稠密的小模型,推理性能好像保留了下来。这点,对于未来的端侧应用展开,是一个好消息。同时对于未来的商业变现,也是一个好消息。
总结一下,其实我还是比较喜欢先读懂目录,再去读细节。总体而言,就是没有给我带来震惊的感觉,在预期内,但是效果非常好。