作者 | 苏剑林
单位 | 科学空间
研究方向 | NLP、神经网络
随着算力的飞速进步,有越多越多的场景希望能够实现“算力换时间”,即通过堆砌算力来缩短模型训练时间。
方差视角
二次方根
线性缩放
直面损失
单调有界
实践分析
数据效率
自适应版
符号近似
两个特例
涌现行为
效率关系
补充说明
文章小结
扫描二维码添加小助手微信
作者 | 苏剑林
单位 | 科学空间
研究方向 | NLP、神经网络
随着算力的飞速进步,有越多越多的场景希望能够实现“算力换时间”,即通过堆砌算力来缩短模型训练时间。
扫描二维码添加小助手微信