Ascend C 实战:开发高性能自定义 RMSNorm 算子替代 LayerNorm 加速 LLaMA 模型 | 极客日志