深入理解 Transformer 架构:从注意力机制到位置编码 | 极客日志