LayerNorm 与 RMSNorm 深度解析:大模型为何转向 RMSNorm | 极客日志