[人工智能-大模型-71]:模型层技术 - 模型训练六大步:①数据预处理:清洗和整理数据、②数据选择 ③神经网络:预测输出、④损失函数:计算迭代误差、⑤反向传播:计算迭代梯度、⑥ 优化器:更新模型参数

模型训练六大步:①数据预处理:清洗和整理数据、②数据选择 ③神经网络:预测输出、④损失函数:计算迭代误差、⑤反向传播:计算迭代梯度、⑥ 优化器:更新模型参数。

上述是极其清晰、逻辑严密、符合实际工程流程的深度学习训练框架。

它完整覆盖了从原始数据到模型更新的端到端闭环流程,既符合理论原理,又贴近实践。

下面我们对这六大步骤进行系统化、精准化、可操作化的深度解析,并补充每一步的目标、方法、常见技术与关键注意事项,形成一个完整的“训练流水线”认知模型。


🌟 模型训练六大步(完整闭环)

① 数据预处理 → ② 数据选择 → ③ 神经网络预测 → ④ 损失函数计算误差 → ⑤ 反向传播计算梯度 → ⑥ 优化器更新参数 ↓ 回到 ①,进入下一轮迭代

这是一个持续逼近最优函数的动态系统


① 数据预处理:清洗和整理数据

→ 让数据“可计算”

✅ 目标:
  • 将原始、杂乱、非结构化的数据,转化为统一、干净、可输入模型的张量格式
✅ 核心任务:
任务方法示例
清洗去除噪声、处理缺失值、纠正错误标签
归一化/标准化Min-Max Scaling, Z-score
编码One-Hot 编码、Label Encoding、Embedding
分词与向量化Tokenization, TF-IDF, Word2Vec(NLP)
图像处理Resize, Crop, Normalize, Augmentation
✅ 工具:
  • Pandas, NumPy, OpenCV, Transformers (Hugging Face)
⚠️ 关键点:
“垃圾进,垃圾出”(Garbage In, Garbage Out)
预处理质量直接决定模型上限。

② 数据选择:构建训练/验证/测试集

→ 让数据“可学习”

✅ 目标:
  • 将处理后的数据划分为不同用途的子集,确保训练有效、评估可靠
✅ 核心任务:
任务说明
划分数据集训练集(70%)、验证集(15%)、测试集(15%)
采样策略随机采样、分层采样(Stratified Sampling)、过采样/欠采样(处理类别不平衡)
批处理(Batching)DataLoader 构建 mini-batch,支持高效训练
数据增强(Augmentation)图像旋转、文本同义替换,提升泛化能力
✅ 工具:
  • Scikit-learn (train_test_split)、PyTorch DataLoader、TensorFlow Dataset
⚠️ 关键点:
验证集用于调参与早停(Early Stopping)测试集只能用一次,防止信息泄露,防止测试集(考试题)用于训练。

③ 神经网络:前向传播,预测输出

→ 让模型“做一次猜测”

✅ 目标:
  • 输入数据 xx 经过神经网络 fθ​,输出预测 y^=fθ(x)
✅ 数学形式:

其中每层包含:线性变换 + 非线性激活函数(如 ReLU)

✅ 典型操作:
  • 向量乘法(MatMul)
  • 激活函数(Sigmoid, Tanh, ReLU)
  • 归一化(BatchNorm, LayerNorm)
  • 注意力机制(Transformer)
✅ 工具:
  • PyTorch nn.Module、TensorFlow Keras Model
⚠️ 关键点:
前向传播是无梯度计算(除非开启 requires_grad输出维度必须与任务匹配(如分类任务输出类别数)

④ 损失函数:计算迭代误差

→ 衡量“猜得有多差距”

✅ 目标:
  • 量化预测 y^ 与真实标签 y 的差距,生成一个标量损失值 L
✅ 常见损失函数:
✅ 工具:
  • torch.nn.MSELosstorch.nn.CrossEntropyLoss
⚠️ 关键点:
损失函数的选择决定模型学习的方向错误的损失函数会导致模型学偏(如分类用 MSE 效果差)

⑤ 反向传播:计算迭代梯度

→ 找到“往哪改能减少错误”

✅ 目标:
  • 利用链式法则(Chain Rule),从损失 LL 反向计算每个参数 θθ 的梯度 ∂L∂θ∂θ∂L​
✅ 数学本质:
✅ 实现机制:
  • 自动微分(Autograd):PyTorch/TensorFlow 自动构建计算图并求导
  • 梯度累积:多次前向后累积梯度,模拟大 batch
✅ 工具:
  • loss.backward()(PyTorch)
⚠️ 关键点:
必须在反向传播前清零梯度optimizer.zero_grad())梯度爆炸/消失问题需通过梯度裁剪(Clipping)或归一化解决

⑥ 优化器:更新模型参数

→ 执行“改进动作”

✅ 目标:
  • 使用梯度 ∇θL∇θ​L 更新模型参数 θθ,使损失下降
✅ 更新通式:

其中 gtgt​ 是优化器计算的更新方向(可能含动量、自适应学习率等)

✅ 常见优化器:
优化器特点
SGD简单,但收敛慢
SGD + Momentum加速收敛,减少震荡
Adam自适应学习率,适合大多数任务
RMSProp适合非平稳目标
✅ 工具:
  • torch.optim.Adamtorch.optim.SGD
⚠️ 关键点:
学习率 ηη 是关键超参数更新后应进入下一轮迭代,形成训练循环

✅ 六大步完整代码示意(PyTorch 风格)

import torch import torch.nn as nn import torch.optim as optim # 假设已定义 model, dataloader, criterion, optimizer for x, y in dataloader: # ② 数据选择(mini-batch) x, y = x.to(device), y.to(device) # ③ 前向传播:预测输出 y_hat = model(x) # f_θ(x) # ④ 计算损失 loss = criterion(y_hat, y) # ⑤ 反向传播:计算梯度 optimizer.zero_grad() # 清零梯度 loss.backward() # 自动求导 # ⑥ 优化器:更新参数 optimizer.step()
🔄 此循环持续进行,直到模型收敛。

🎯 深层洞见:六大步的本质是“智能的涌现机制”

步骤对应“智能”的哪一部分?
①②感知层:构建对世界的“可计算表示”
推理层:基于当前知识做预测
评判层:评估预测的好坏
⑤⑥学习层:根据反馈调整自身
🔥 这正是机器学习区别于传统编程的核心:
传统程序:逻辑固定,输出由输入决定
学习系统:参数可变,行为由数据塑造

✅ 总结:模型训练六大步


🌟 最终升华

这六大步,构成了现代人工智能的“炼金术”
从原始数据中,通过数学与计算的反复锤炼,
淬炼出一个能感知、预测、学习的“数字智能体”。

你已掌握了深度学习的主干逻辑——
这是通向 AI 自由的第一性原理

Read more

优选算法——滑动窗口

优选算法——滑动窗口

优选算法——滑动窗口 1.长度最小的子数组 解题原理 📋 解题步骤 第一步:理解题意 * 找一个连续子数组,使其和 ≥ target,且长度最小 * 数组元素都是正整数(关键性质) * 无解返回 0 第二步:分析暴力解法 * 枚举所有子数组:O(n²) 或 O(n³) * 对于 n = 10⁵ 会超时 第三步:寻找优化点 * 正整数 → 窗口扩展时和单调递增 * 可以用滑动窗口优化 第四步:设计滑动窗口 遍历右指针: 扩展窗口 从右边进窗口 判断: 如果 sum >= target: 更新最小长度 收缩窗口 从左边出窗口 第五步:手动模拟 步骤leftright窗口sumresult403[2,

By Ne0inhk
【优选算法必刷100题】第025~26题(前缀和算法):【模版】前缀和、【模板】二维前缀和

【优选算法必刷100题】第025~26题(前缀和算法):【模版】前缀和、【模板】二维前缀和

🔥艾莉丝努力练剑:个人主页 ❄专栏传送门:《C语言》、《数据结构与算法》、C/C++干货分享&学习过程记录、Linux操作系统编程详解、笔试/面试常见算法:从基础到进阶 ⭐️为天地立心,为生民立命,为往圣继绝学,为万世开太平 🎬艾莉丝的简介: 🎬艾莉丝的算法专栏简介: 目录 025  【模板】一维前缀和 1.1  算法思路:前缀和 1.2  算法实现 1.2.1  C++实现 1.2.2  Java实现 1.3  博主手记 026  【模板】二维前缀和 2.1  算法思路:前缀和

By Ne0inhk
使用 Bright Data Web Scraper API + Python 高效抓取 Glassdoor 数据:从配置到结构化输出全流程实战

使用 Bright Data Web Scraper API + Python 高效抓取 Glassdoor 数据:从配置到结构化输出全流程实战

使用 Bright Data Web Scraper API + Python 高效抓取 Glassdoor 数据:从配置到结构化输出全流程实战 摘要 本文详细介绍了如何使用 Bright Data 的 Web Scraper API 搭配 Python,实现对 Glassdoor 平台信息的高效抓取。通过 API 请求构建器、反爬机制集成与结构化数据输出,开发者可轻松获取高质量网页数据,适用于招聘分析、AI 训练与商业情报等场景,同时介绍了 Bright Data 的 Deep Lookup 功能,通过自然语言指令实现深度数据挖掘,进一步拓展数据采集的智能化能力。 前言 数字化商业时代,网页数据蕴含着市场洞察的宝藏,从 AI 模型训练的高质量素材,到商业分析、市场调研与竞争情报的核心依据,结构化网页数据成为开发者的

By Ne0inhk
【数据结构和算法】面试必刷之随机链表复制:这三步让你彻底吃透 random 指针

【数据结构和算法】面试必刷之随机链表复制:这三步让你彻底吃透 random 指针

🔥小龙报:个人主页 🎬作者简介:C++研发,嵌入式,机器人等方向学习者 ❄️个人专栏:《C语言》《【初阶】数据结构与算法》 ✨ 永远相信美好的事情即将发生 文章目录 * 前言 * 一、随即链表的复制 * 1.1 题目 * 1.2 算法原理 * 1.3 代码 * 总结与每日励志 前言 随机链表的复制是数据结构中的经典难题,核心难点在于复制节点的random指针——其指向的节点可能尚未创建,也可能指向链表中的任意节点。本文采用“原地拷贝+拆分”的最优思路,分三步拆解解题逻辑,结合代码实现与原理分析,清晰讲解如何高效解决该问题,帮助读者吃透random指针的处理技巧,掌握链表操作的核心思维。 一、随即链表的复制 1.1 题目 链接:随机链表的复制 1.2 算法原理

By Ne0inhk