新智元报道
新智元报道
【新智元导读】Scaling Law并未失效,只是不再局限于参数规模的增加。MIT团队最新研究发现,测试时训练在Scaling大模型上,显现出突破性潜力,ARC公共基准测试中拿下61.9%成绩,媲美人类选手。
当前,拥有完美想法已经不再是关键的因素了。深度学习有很强的灵活性,解决同一问题可能会有多种可行的方法。一旦一个想法基本可行,真正的竞争就在于有多少有实力、有信念且拥有资源的人在做这件事。
Scaling大模型新方向:测试时训练
测试时遇到的类似合成任务上进行「初始微调」 采用增强的「留一法」(leave-one-out)任务生成策略来构建测试时数据集 「每个实例」适配器训练和 可逆变换下的「自洽性」
TTT期间有哪些数据集和损失?
数据生成
TTT后推理策略是什么?
增强推理
集成预测(投票策略)
TTT前要微调什么?
准备微调数据
这些变换通过三种方式应用:
- 仅输入网格:(x,y)→(t(x),y)
- 仅输出网格:(x,y)→(x,t(y))
ARC基准以及与其他系统比较
测试时训练影响
与现有方法集成
程序生成和端到端建模比较
结论