大模型面试最新高频问题整理(二)

文摘   2024-07-15 16:44   上海  
  1. Attention的优化?

    大模型面试之注意力机制的优化总结

  2. 解码方式有哪些?

    如何让大模型生成解码阶段的结果更好:从Beam Search到top_k、top_p等参数的实现原理与脚本实现

  3. 3D并行的区别?

     千亿模型并行训练技术

  4. 预训练时数据的拼接方式?

    大模型面试之Pretrain时如何做好拼接

  5. Transformer参数量拆解计算?

    l层transformer模型的可训练模型参数量为l(12h^2+ 13h)+ Vh:词嵌入矩阵的参数量为Vh。最后的输出层的权重矩阵通常与词嵌入矩阵是参数共享的。位置编码参数量较少,如果采用相对位置编码如RoPE和ALiBi,则不包含可训练的参数。Self-attention块的参数量为4h^2+4h。MLP块的参数量为(4h^2+4h)+(4h^2+h)=8h^2 + 5h。两个layer norm的参数量为4h。

  6. Transformer、Mamba、TTT等对比?

互联网持续学习圈
清华大学计算机系校友、前微软、阿里高级算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者,持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。
 最新文章