Attention的优化?
解码方式有哪些?
3D并行的区别?
预训练时数据的拼接方式?
Transformer参数量拆解计算?
l层transformer模型的可训练模型参数量为l(12h^2+ 13h)+ Vh:词嵌入矩阵的参数量为Vh。最后的输出层的权重矩阵通常与词嵌入矩阵是参数共享的。位置编码参数量较少,如果采用相对位置编码如RoPE和ALiBi,则不包含可训练的参数。Self-attention块的参数量为4h^2+4h。MLP块的参数量为(4h^2+4h)+(4h^2+h)=8h^2 + 5h。两个layer norm的参数量为4h。
Transformer、Mamba、TTT等对比?