技术报告：在 4x Tesla P40 上训练 Llama-3.3-70B 大模型指南

优质文章学习记录

07 Apr 2026 — 5 min read

作者: Antigravity (Google DeepMind Agent)

日期: 2026-01-14

硬件目标: NVIDIA Tesla P40 (24GB) x4

模型目标: Llama-3.3-70B-Instruct

1. 摘要

本报告详细记录了在不支持 BFloat16 和 Tensor Cores 半精度加速（Pascal 架构）的老旧硬件（Tesla P40）上，成功训练 70B 参数量级大预言模型的技术方案。

通过结合 4-bit NF4 量化、模型自动分片 (Model Sharding) 以及 纯 FP32 训练管线 (Pure FP32 Pipeline)，我们成功克服了硬件架构限制，实现了稳定训练。

2. 硬件与环境规格

Tesla P40 是一张性价比极高但年代久远的显卡（Pascal 架构，2016年）。

VRAM: 24GB GDDR5 (巨大优势)
架构: Pascal (GP102)
限制:
- 不支持 BFloat16 (BF16): 这是现代 LLM 训练最常用的格式。
- FP16 性能: 虽然支持 FP16 指令，但在 PyTorch/CUDA 现代实现中，混合精度训练 (AMP) 极易触发不支持的算子或导致数值不稳定。
- PCIe: 3.0 (通信带宽受限)

3. 核心技术挑战与解决方案

挑战 A: 70B 模型显存需求巨大

Llama-3.3-70B 的 FP16 权重需要约 140GB 显存。单张 P40 (24GB) 无法承载，甚至 4 张 (96GB) 也无法全参数加载。

✅ 解决方案: 4-bit 量化 + 模型分片

4-bit NF4 量化: 将模型权重压缩至 ~35-40GB。
Device Map Auto: 使用 accelerate 的自动分片功能，将模型层分布到 4 张 GPU 上。
- GPU 0: ~9.7GB
- GPU 1-2: ~8.3GB
- GPU 3: ~14.7GB

挑战 B: 缺乏 BFloat16 支持与 AMP 崩溃

这是最棘手的问题。现代训练框架默认倾向于使用 BF16 或 FP16 混合精度 (AMP)。

在 P40 上：

开启 bf16=True -> 直接报错 RuntimeError: BFloat16 not implemented。
开启 fp16=True (AMP) -> GradientScaler 在处理梯度时会崩溃，或者遇到 RuntimeError: expected mat1 and mat2 to have the same dtype，因为某些内部算子（尤其是量化相关的）可能悄悄转换成了 BF16。

✅ 解决方案: 纯 FP32 训练管线 (Pure FP32 Pipeline)

这是唯一稳健的方案。虽然 FP32 显存占用比 FP16 大一倍（主要在激活值和梯度），但由于我们已经使用了 4-bit 权重，剩下的空间足够 batch_size=1 的 FP32 训练。

禁用 AMP: fp16=False, bf16=False。
强制 FP32 权重: 将原本可能默认为 FP16 的非量化层 (lm_head, LayerNorm, LoRA adapters) 强制转换为 float32。
BitsAndBytes 配置: 显式指定 bnb_4bit_compute_dtype=torch.float32。

4. 完整实施教程

步骤 1: 环境安装

 conda create -n llama_p40 python=3.10 -y conda activate llama_p40 # 安装 PyTorch (CUDA 11.8) pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 安装核心依赖 pip install --upgrade transformers peft bitsandbytes trl accelerate unsloth

步骤 2: 训练脚本配置 (关键代码)

创建一个 python 脚本 (e.g., train_p40.py)，关键部分如下：

import torch from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TrainingArguments from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training from trl import SFTTrainer, SFTConfig # 1. 配置 4-bit 量化 (关键: 使用 FP32 计算) bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4",# 推荐 nf4 精度更高 bnb_4bit_compute_dtype=torch.float32,# [关键] P40 必须用 FP32 计算 bnb_4bit_use_double_quant=True,)# 2. 加载模型 (关键: 分片 + 强制 float32) model = AutoModelForCausalLM.from_pretrained("/path/to/Llama-3.3-70B-Instruct", quantization_config=bnb_config, device_map="auto",# 自动分片到多卡 torch_dtype=torch.float32,# [关键] 强制模型加载为 float32 low_cpu_mem_usage=True,)# 3. 后处理：手动将所有非量化层转为 FP32# BitsAndBytes 会锁定量化层，我们只需要转换剩下的for name, module in model.named_modules():if"norm"in name.lower()or"lm_head"in name.lower(): module.to(torch.float32)# 4. 配置 LoRA model = prepare_model_for_kbit_training(model) lora_config = LoraConfig( r=8, lora_alpha=16, target_modules=["q_proj","k_proj","v_proj","o_proj"], task_type="CAUSAL_LM") model = get_peft_model(model, lora_config)# 5. 再次确保 LoRA 层也是 FP32for name, module in model.named_modules():if"lora_"in name: module.to(torch.float32)# 6. 训练参数 (关键: 禁用 AMP) sft_config = SFTConfig( output_dir="./output", per_device_train_batch_size=1,# 显存有限，BS=1 gradient_accumulation_steps=8,# 累积梯度弥补 BS fp16=False,# [关键] 必须关闭 bf16=False,# [关键] 必须关闭 optim="paged_adamw_8bit",# 节省优化器显存 max_length=2048,# 根据显存调整) trainer = SFTTrainer( model=model, args=sft_config,# ... 其他数据集配置) trainer.train()

步骤 3: 运行训练

不要使用 accelerate launch 或 torchrun，因为我们使用的是 device_map="auto" (模型并行)，而不是 DDP (数据并行)。直接用 Python 运行：

CUDA_VISIBLE_DEVICES=0,1,2,3 python train_p40.py

5. 常见问题 (Troubleshooting)

Q: 为什么不使用 DeepSpeed?
- A: DeepSpeed 依赖较新的 CUDA 特性，在 CUDA 11.8 + P40 上编译极易失败。且 ZeRO-3 在高延迟的 PCIe 3.0 上效率不佳。device_map 是更简单的替代方案。
Q: 报错 RuntimeError: "_amp_foreach_non_finite_check_and_unscale_cuda" not implemented for 'BFloat16'
- A: 你开启了 AMP (fp16=True)。即使你没有显式使用 BF16，某些内部组件也可能触发它。请确保 fp16=False 且所有层都是 float32。
Q: 显存还是不够怎么办？
- A:
  1. 减小 max_length (e.g. 2048 -> 1024).
  2. 减小 per_device_train_batch_size (e.g. 1).
  3. 启用 gradient_checkpointing=True (Unsloth/TRL 默认支持).

Created by Antigravity for User Session 7832c2dd

不用AList也能挂载115网盘？飞牛NAS原生WebDAV配置全攻略

飞牛NAS原生WebDAV直连115网盘全流程解析在私有云存储领域，飞牛NAS凭借其简洁易用的特性赢得了不少用户的青睐。对于拥有115网盘资源的用户来说，如何在不依赖第三方工具的情况下实现高效挂载，成为提升使用体验的关键。本文将深入探讨飞牛NAS原生支持WebDAV协议挂载115网盘的全套方案，从原理分析到实操细节，帮助用户构建更稳定的私有云存储架构。 1. WebDAV协议与飞牛NAS的兼容性解析 WebDAV（Web Distributed Authoring and Versioning）作为一种基于HTTP/HTTPS的扩展协议，早已成为跨平台文件管理的通用标准。飞牛NAS在系统层面原生集成WebDAV服务，这为直接挂载各类云存储提供了技术基础。相比需要通过AList等第三方工具中转的方案，原生WebDAV连接具有明显的优势： * 性能提升：省去中间层处理，传输效率提高30%以上 * 稳定性增强：减少因第三方服务更新导致的兼容性问题 * 资源占用降低：无需额外安装维护应用，节省系统资源在实际测试中，原生WebDAV挂载的响应速度比AList方案快1.5-2

计算机毕业设计springboot礼物商城的设计与实践基于SpringBoot的个性化礼品电商平台的设计与实现基于Java Web的创意礼物在线销售系统的设计与开发

计算机毕业设计springboot礼物商城的设计与实践917jxi80（配套有源码程序 mysql数据库论文）本套源码可以在文本联xi,先看具体系统功能演示视频领取，可分享源码参考。 1. 随着消费升级和社交需求的多元化发展，礼品经济正迎来前所未有的增长机遇。传统礼品采购模式存在选品单一、缺乏个性、购买不便等痛点，难以满足当代消费者对情感表达和独特体验的追求。与此同时，电子商务技术的成熟为礼品行业数字化转型提供了坚实基础，个性化定制与线上购物的深度融合成为行业发展的新趋势。本系统正是在此背景下应运而生，旨在构建一个集礼品展示、个性定制、便捷交易于一体的综合性电商平台，通过技术手段赋能传统礼品行业，提升用户送礼体验，推动礼品消费向品质化、个性化方向发展。本系统采用SpringBoot作为核心开发框架，结合Vue前端技术实现前后端分离架构，选用MySQL数据库存储业务数据，B/S架构确保系统的可访问性和易维护性。系统围绕用户购物体验和管理者运营需求展开设计，涵盖从商品浏览到订单完成的全流程业务闭环。前台为用户提供礼品信息浏览、个性化搜索筛选、购物车管理、在线支付、订单跟踪

Qwen-Multiple-Angles - 角色/产品多视角速成一张图搞定96种相机角度 ComfyUI+WebUI双模式一键整合包下载

Qwen-Multiple-Angles 是一款多角度生成的插件（LoRA），让你在编辑图片时，可以像摄影师一样精确控制“拍摄角度”，比如前视、侧视、俯视、仰视，还能选择远近距离。它是专门为 Qwen-Image-Edit-2511 模型扩展的 LoRA（轻量训练模块），解决了原模型在多角度控制上的不足。它的核心能力就是：你给它一张图，它能帮你从各种不同角度重新生成这张图里的东西，而且保持主体基本不变形、不串味。下载地址：点此下载今天分享的 Qwen-Multiple-Angles 一键包基于 Qwen-Image-Edit-2511-Multiple-Angles 这个LoRA模型，集成单次生成和批量生成。单次生成支持可视化3D控制球拖动生成，批量生成支持更自由的多角度连贯批量控制生成。支持多种模型一键切换，支持更适合新手的WebUI模式和专业选手的ComfyUI两种模式。主要特点可以控制96种相机位置水平转圈：8个方向（正面、45°斜角、90°正侧面、135°、背后……一直转到360°）垂直高度：4种高度（特别强的是“低角度仰拍-30°

WebRTC一对一通话实战讲解

WebRTC是一门实时通信技术，可以实现P2P或者中继模式进行建立连接，其中P2P的连接方式需要经过信令服务器交换SDP，在没有信令服务器的情况下P2P是建立不了连接的，而中继（relay）模式则是以TURN服务器进行中继转发音视频流数据。为什么要使用P2P呢？主要原因是因为P2P具有低延迟节省服务器带宽，但此时NAT以及防火墙问题却是P2P建立连接的主要障碍，此时Nginx服务器可以作为HTTP服务器进行反向代理颁发证书进行HTTP协议加密，来建立安全稳定的连接。到了这里还有个非常重要的概念需要理清楚就是websocket、HTTP、STUN、TURN、ICE、SDP（offer、answer）、candidate、ICE、P2P打洞连接、relay中继转发、信令服务器、http反向代理以及nginx这些名词在webrtc一对一通话中的实际作用与功能还有生命周期。其中最容易混淆的就是Nginx、HTTP与websocket的联系，Nginx做HTTP反向代理将信令转请求转给信令服务器，而信令服务器（Node）提供

技术报告：在 4x Tesla P40 上训练 Llama-3.3-70B 大模型指南

优质文章学习记录

1. 摘要

2. 硬件与环境规格

推荐软件环境版本

3. 核心技术挑战与解决方案

挑战 A: 70B 模型显存需求巨大

挑战 B: 缺乏 BFloat16 支持与 AMP 崩溃

4. 完整实施教程

步骤 1: 环境安装

步骤 2: 训练脚本配置 (关键代码)

步骤 3: 运行训练

5. 常见问题 (Troubleshooting)

Read more

不用AList也能挂载115网盘？飞牛NAS原生WebDAV配置全攻略

计算机毕业设计springboot礼物商城的设计与实践基于SpringBoot的个性化礼品电商平台的设计与实现基于Java Web的创意礼物在线销售系统的设计与开发

Qwen-Multiple-Angles - 角色/产品多视角速成一张图搞定96种相机角度 ComfyUI+WebUI双模式一键整合包下载

WebRTC一对一通话实战讲解

1. 摘要

2. 硬件与环境规格

推荐软件环境版本

3. 核心技术挑战与解决方案

挑战 A: 70B 模型显存需求巨大

挑战 B: 缺乏 BFloat16 支持与 AMP 崩溃

4. 完整实施教程

步骤 1: 环境安装

步骤 2: 训练脚本配置 (关键代码)

步骤 3: 运行训练

5. 常见问题 (Troubleshooting)

Read more

不用AList也能挂载115网盘？飞牛NAS原生WebDAV配置全攻略

计算机毕业设计springboot礼物商城的设计与实践 基于SpringBoot的个性化礼品电商平台的设计与实现 基于Java Web的创意礼物在线销售系统的设计与开发

Qwen-Multiple-Angles - 角色/产品多视角速成 一张图搞定96种相机角度 ComfyUI+WebUI双模式 一键整合包下载

WebRTC一对一通话实战讲解

计算机毕业设计springboot礼物商城的设计与实践基于SpringBoot的个性化礼品电商平台的设计与实现基于Java Web的创意礼物在线销售系统的设计与开发

Qwen-Multiple-Angles - 角色/产品多视角速成一张图搞定96种相机角度 ComfyUI+WebUI双模式一键整合包下载