从 LLaMA-Factory 微调到高通 NPU 部署: Qwen-0.6B 全链路移植指南

优质文章学习记录

08 Apr 2026 — 6 min read

前言

在大模型端侧化部署的趋势下，如何将微调后的 LLM 跑在手机 NPU 上是很多开发者的痛点。本文将手把手教你如何将使用 LLaMA-Factory 微调后的 Qwen-0.6B 模型，一步步移植到高通（Qualcomm）骁龙平台的 NPU 上，实现低功耗、高速度的本地化推理。

一、导出微调模型

首先，在 LLaMA-Factory 界面中选择好微调后的检查点（Checkpoint），填写导出路径，点击 “开始导出” 。

导出成功后，你会在目录下看到如下文件：

model.safetensors（模型权重）
config.json（模型配置）
tokenizer.json 等（分词器相关）

要将微调后的 Qwen-0.6B 模型移植到高通 NPU，第一步就是格式转换。safetensors 是目前 Hugging Face 推崇的安全权重格式，而 ONNX 则是进入高通工具链（QNN/SNPE）的通用门票。
以下是详细的操作步骤：

二、格式转换：从 Safetensors 到 ONNX

1. 转换为 PyTorch 权重

由于部分旧版转换工具不支持 safetensors，建议先将其转回标准的 pytorch_model.bin 。

import torch from safetensors.torch import load_file # 1. 路径设置 safetensors_path ="./qwen0_6b/model.safetensors" pytorch_bin_path ="./qwen0_6b/pytorch_model.bin"# 2. 加载并保存 weights = load_file(safetensors_path) torch.save(weights, pytorch_bin_path)[cite_start]print(f"转换成功：{pytorch_bin_path}")[cite:42,43,44,46,51,54]

注意：转换后，请确保你的 config.json 中的 architectures 字段正确（对于 Qwen0.6B 通常是 Qwen2ForCausalLM）。

2. 使用 Optimum 导出 ONNX

导出 LLM 涉及复杂的 KV Cache 处理，强烈建议使用 Hugging Face 的 Optimum 库。

安装工具：

[cite_start]pip install optimum[exporters] onnx onnxruntime [cite: 62]

执行导出：
针对 NPU 部署，必须开启 with past 模式以保证推理速度。

optimum-cli export onnx \ --model ./qwen0_6b \ --task text-generation-with-past \ --trust-remote-code \[cite_start]./qwen_onnx_out/ [cite: 67, 69, 71, 73, 75]

输出结果：你会得到 decoder_model.onnx 和 decoder_with_past_model.onnx。

注意：--task text-generation-with-past：这非常关键！这会生成两个模型，一个处理初始 Prompt，另一个利用 KV Cache 负责后续 Token 生成。

三、高通 NPU 关键优化（必看！）

高通 Hexagon NPU 对算子有特定要求，进入工具链前需完成以下优化：

Opset 版本： 建议使用 Opset 17 或更高版本。如果 optimum 默认导出较低，可以指定：

--opset 17

静态形状（Static Shapes）： NPU 在静态形状下性能最强。建议将输入固定，如 batch_size=1, sequence_length=512 。
模型简化： 使用 onnxsim 消除冗余算子，降低报错率。

pip install onnxsim onnxsim ./qwen_onnx_out/decoder_model.onnx ./qwen_onnx_out/decoder_model_sim.onnx

四、验证 ONNX 模型

在交给高通工具链之前，先确保 ONNX 模型是正确的：

import onnx import onnxruntime as ort model = onnx.load("./qwen_onnx_out/decoder_model.onnx") onnx.checker.check_model(model) print("ONNX 模型校验通过！")

五、高通工具链（QNN）模型编译

1. 环境准备

确保你的 Linux 开发机已安装：

Qualcomm AI Engine Direct SDK (QNN)
Android NDK (建议 r25c 或 r26)
设置环境变量：

exportQNN_SDK_ROOT=/path/to/qnn_sdk exportANDROID_NDK_ROOT=/path/to/android_ndk source$QNN_SDK_ROOT/bin/envsetup.sh

一旦你拿到了 decoder_model.onnx，你接下来的操作流程是：

准备量化数据：从你的微调数据集中抽取 100 条样本，用于高通工具的 Post-Training Quantization (PTQ)。
使用 QNN Converter：

qnn-onnx-converter -i decoder_model.onnx -o qwen_qnn.cpp --input_list_file calibration_data.txt

要把微调后的 Qwen-0.6B 最终跑在手机 NPU 上，你需要经历交叉编译的过程。高通 QNN SDK 提供了专门的工具，将转换后的中间代码（.cpp / .bin）编译成手机端可执行的二进制文件。
在高通架构中，通常涉及两种文件：

.so (Model Library)：模型的结构描述库。
.bin (Context Binary)：针对特定 NPU 硬件优化并序列化后的图模型（这是性能最高的形态）。

2. 生成模型动态库 (.so)

使用 qnn-onnx-converter 将 ONNX 转为 C++ 代码，再通过 qnn-model-lib-generator 编译。

qnn-model-lib-generator \ -c qwen_model.cpp \ -b qwen_model.bin \ -o ./model_libs \ -t aarch64-android # 指定目标平台为 Android ARM64

输出结果：在 ./model_libs/aarch64-android/ 目录下，你会得到一个 libqwen_model.so。
用途：这个文件包含了模型的拓扑结构，可以被高通的推理引擎加载。

3. 生成上下文二进制文件 (.bin) —— 性能核心

为了实现“秒开”和极致加速，必须生成针对 HTP（Hexagon Tensor Processor）优化的 Context Binary 。

qnn-context-binary-generator \ --model ./model_libs/aarch64-android/libqwen_model.so \ --backend libQnnHtp.so \ --output_dir ./context_out \ --binary_file qwen_htp_context

--backend libQnnHtp.so：这步至关重要，它指定使用 HTP (Hexagon Tensor Processor) 后端，即真正的 NPU 加速。
输出结果：qwen_htp_context.bin。

注意：此步骤通常建议在连接了真机的情况下运行（通过 adb），或者使用高通提供的模拟器，因为生成 context 需要针对具体的芯片架构（如 v73, v75）。

六、手机端集成与验证

在 Android 项目中，通过 C++/JNI 调用 QNN API 加载 qwen_htp_context.bin 即可执行推理。

现在你手里有了：

模型资产：qwen_htp_context.bin。
推理引擎库：从 QNN SDK 中提取的 libQnnHtp.so, libQnnSystem.so 等。

快速验证：
在写 App 前，先用 qnn-net-run 工具在手机 shell 中测试：

[cite_start]./qnn-net-run --container qwen_htp_context.bin --backend libQnnHtp.so --input_list input_data.txt [cite: 198, 199, 200]

若能正常输出 Tensor 结果，说明模型已成功跑在 NPU 上！

推理代码核心逻辑(C++/JNI)：
在 Android 的 C++ 层，你需要调用 QNN API 来加载这个 .bin 文件：

// 1. 初始化 QNN 实例 Qnn_BackendHandle_t backendHandle; QnnBackend_initialize(..., &backendHandle); // 2. 加载之前生成的 Context Binary Qnn_ContextHandle_t contextHandle; // 通过读取 qwen_htp_context.bin 的 buffer 传入 QnnContext_createFromBinary(backendHandle, deviceHandle, ..., binaryBuffer, binarySize, &contextHandle, ...); // 3. 准备 Tensor 数据并执行推理 QnnGraph_execute(graphHandle, inputTensors, numInputs, outputTensors, numOutputs, ...);

🛠 避坑总结

版本一致性： 编译 .so 的 NDK 版本必须与 Android 项目一致。
内存溢出： 若 Context Length 设得太大，NPU 内存会溢出，建议从 512 或 1024 测起。
算子支持： 若生成 Binary 报错，需回到 ONNX 阶段进行算子融合或替换。

希望这篇指南能帮你顺利把大模型装进兜里！如果有问题，欢迎在评论区交流。

如果你觉得有用，欢迎点赞、收藏、关注！

Cogito-v1-preview-llama-3B效果展示：多模态思维链（CoT）生成可视化

Cogito-v1-preview-llama-3B效果展示：多模态思维链（CoT）生成可视化最近在探索各种开源大模型时，我遇到了一个挺有意思的模型——Cogito-v1-preview-llama-3B。这个模型最吸引我的地方，是它号称能在回答问题时，把思考过程“可视化”出来。这听起来有点玄乎，但实际用下来，发现它确实有点东西。简单来说，Cogito-v1-preview-llama-3B是一个只有30亿参数的小模型，但它有个特别的能力：不仅能直接给出答案，还能在回答前先“自我反思”一番，然后把整个思考链条展示给你看。这种“思维链”功能，通常只在那些动辄几百亿参数的大模型里才能看到，现在居然在一个3B的小模型上实现了，这本身就挺让人惊讶的。我花了一些时间测试这个模型，发现它的效果确实超出了我的预期。它不仅在各种标准测试中表现不错，更重要的是，它的“可视化思考”功能，让我们能真正看到模型是怎么一步步推理出答案的。这对于理解模型的决策过程、排查错误，甚至教学演示，都很有价值。 1. 模型核心能力概览 Cogito-v1-preview-llama-3B虽然参数规模不大，

Qwen-Image-2512极速文生图：新手也能玩转的AI绘画工具

Qwen-Image-2512极速文生图：新手也能玩转的AI绘画工具 Qwen-Image-2512 极速文生图创作室，不是又一个需要调参、等半天、看运气的AI画图工具。它是一台开箱即用的“灵感喷射器”——输入一句话，按下按钮，3秒后高清画面就出现在你眼前。没有模型下载、没有环境报错、没有显存崩溃，连电脑刚装完系统的新手，也能在5分钟内生成第一张属于自己的AI艺术作品。它背后是阿里通义千问团队打磨的 Qwen/Qwen-Image-2512 模型，但真正让它与众不同的，是那一套为“人”而设计的工程化思维：不堆参数，不炫技术，只做一件事——让中文用户，用最自然的语言，最快拿到最满意的结果。 1. 为什么说这是“新手友好型”文生图工具？很多AI绘画工具对新手并不友好：要查采样器、调CFG值、选分辨率、试十几遍才能出一张像样的图。Qwen-Image-2512 则反其道而行之——它主动把复杂性藏起来，把确定性交到你手上。 1.1 不用学术语，直接说人话你不需要知道什么是“Euler

Qwen-Image-2512 V2版 - 细节拉满，更真实的AI绘画体验 ComfyUI+WebUI 一键整合包下载

Qwen-Image-2512 是 Qwen-Image 文生图基础模型的 12 月更新版本，这是一个最新的文本生成图像模型，特点是画面更真实、细节更精致，提升了人物与自然细节的真实感，适合在创意设计、教育展示、内容生产等领域使用。今天分享的 Qwen-Image-2512 V2版一键包基于阿里最新开源的 Qwen-Image-2512 的FP8量化版（同时支持BF16），支持消费级显卡最低12G显存流畅运行，支持更适合小白操作的WebUI模式和专业选手的ComfyUI两种模式。相比较上个版本，V2版因使用精度更高的FP8模型，所以在生成效果上更好，同时对硬件的要求也更高，大家根据需要选择适合自己的版本。下载地址：点此下载模型特点更真实的人物表现：相比旧版本，人物的面部细节、表情和环境都更自然，不再有明显的“AI感”。更精细的自然细节：风景、动物毛发、水流等元素渲染更逼真，层次感更强。更准确的文字渲染：在生成带文字的图像（如海报、PPT）时，排版和字体更清晰，图文融合更好。更强的整体性能：

重磅升级| Copilot Studio 一站式智能体平台，助力企业智能体化转型

近期，微软 lgnite 大会重磅宣布 Microsoft Copilot Studio 全面升级，集成智能体构建、自动化与治理，支持多模型和跨平台集成，强化安全与可控性。企业可一站式打造高效、合规，且可扩展的智能体系统，推动流程重塑与创新，加速 AI技术价值在实际业务中的落地转化。当前，越来越多的企业正加速迈向“智能体化”业务转型。AI 技术不再只是概念，而是通过自动化现有流程、利用智能体提升生产力、重塑业务职能，带来可衡量的实际成效。Microsoft Copilot Studio 作为智能 Microsoft Copilot 副驾驶®的智能体平台，提供了一站式的托管解决方案，助力企业高效落地 AI 技术能力。 Microsoft Copilot Studio 让全球企业能够快速将 AI 成果应用于实际业务。它支持企业通过智能体流程自动化，打造专属的单一场景智能体，解决具体问题；也能开发多智能体协作方案，

一、 导出微调模型

二、 格式转换：从 Safetensors 到 ONNX