LLaMAFactory、ModelScope 大模型微调实战（下）

优质文章学习记录

10 Apr 2026 — 4 min read

一、前言

上次简单介绍了下 LLaMAFactory、ModelScope的微调，今天再来总结下如何部署已经微调好的大模型。

直通车→→→ https://blog.ZEEKLOG.net/tadexinnian/article/details/159154443

本次演示基于魔搭社区（https://www.modelscope.cn/my/mynotebook）

二、将模型转换为gguf

2.1 克隆llama.cpp 并安装环境依赖

-- 进入根目录 cd /mnt/workspace -- 需要用 llama.cpp 仓库的 convert_hf_to_gguf.py 脚本来转换 git clone https://github.com/ggerganov/llama.cpp.git -- 进入llama.cpp文件夹 cd llama.cpp -- 创建虚拟环境 python -m venv .venv -- 进入虚拟环境 source .venv/bin/activate -- 安装依赖 pip install -r requirements.txt

2.2 转换模型为 gguf

python convert_hf_to_gguf.py /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --outtype q8_0 --verbose --outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

执行结束后，gguf 文件会保存在

/mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

三、部署

3.1 基于llmma.app （推荐）

github https://github.com/ggml-org/llama.cp

3.1.1 安装llama.app

可参考 https://github.com/ggml-org/llama.cpp/blob/master/docs/install.md#homebrew-mac-and-linux

brew install llama.cpp

***如果提示未安装brew 执行下面的命令

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

3.1.2 加载大模型（cli模式）

llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

可在命令行跟大模型提问

3.1.3 以服务的模式加载大模型（server模式）

llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080 # Basic web UI can be accessed via browser: http://localhost:8080 # Chat completion endpoint: http://localhost:8080/v1/chat/completions

访问 http://localhost:8080

3.2 基于ollama

-- 进入合并后的模型目录 cd /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged -- 创建模型 ollama create my-qwen3-4b-sft-merged -f Modelfile -- 启动模型 ollama run my-qwen3-4b-sft-merged

启动时候报错，这是因为我们使用的Qwen3模型，ollama还没有支持，建议使用llama.cpp方式测试部署。

四、将模型上传至modelscope

4.1 获取token

https://www.modelscope.cn/my/access/token

4.2 获取用户名

https://www.modelscope.cn/my/settings/account

4.3 上传模型

-- 上传gguf 版本 modelscope upload 你的用户名/qwen3-4b-sft-merged-gguf /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --token 你的token

4.4 查看上传结果

https://www.modelscope.cn/my/myspace

4.5 下载上传之后的模型

https://www.modelscope.cn/models/tadexinnian/qwen3-4b-sft-merged-gguf

-- 安装modelscope pip install modelscope -- 下载模型 modelscope download --model tadexinnian/qwen3-4b-sft-merged-gguf

以windows 下载为例子，模型最终下载保存在

C:\Users\PC\.cache\modelscope\hub\models\tadexinnian\qwen3-4b-sft-merged-gguf\Qwen3-4B-Instruct_q8_0.gguf

五、结语

本文完整呈现了微调后大模型从格式转换到实际部署的全流程实践，通过 llama.cpp 实现 HF 模型到 GGUF 格式的转换，借助 llama.app 完成 CLI 与 Server 模式部署，并记录了 Ollama 部署 Qwen3 模型时的兼容问题，同时演示了 GGUF 模型在 ModelScope 平台的上传与下载流程。

整套方案以 llama.cpp 工具链为核心，步骤清晰、可直接复现，为轻量化大模型的本地部署与模型分享提供了一套实用的工程化参考，也为后续同类模型的落地与优化奠定了基础。

DeepSeek-Coder vs Copilot：嵌入式开发场景适配性对比实战

DeepSeek-Coder vs Copilot：嵌入式开发场景适配性对比实战摘要随着人工智能技术的飞速发展，智能编程助手已成为开发者提升效率的重要工具。在嵌入式开发这一对性能、资源约束和底层硬件操作有严苛要求的领域，选择合适的智能编程助手显得尤为关键。本文聚焦于两款国内领先的智能编程助手——DeepSeek-Coder（由深度求索公司开发）和 GitHub Copilot（由微软与 OpenAI 联合开发），通过实战测试与深度分析，对比它们在典型嵌入式开发场景中的表现、适配性及优缺点。测试涵盖交叉编译环境配置、硬件寄存器操作、实时操作系统（RTOS）应用、内存优化、调试辅助等核心环节，旨在为嵌入式开发者提供选型参考。引言嵌入式系统作为物联网（IoT）、工业控制、汽车电子、消费电子等领域的核心，其开发过程具有鲜明的特点： 1. 资源受限性：内存（RAM/Flash）有限、处理器性能不高。 2. 硬件依赖性：代码需紧密操作硬件寄存器、外设接口。 3. 实时性要求：

新版 vscode 去除快捷键 Ctrl+I 显示 Copilot 的 AI 对话框

背景更新 vscode 1.104 之后，Ctrl+I 快捷键会显示 Copilot 的 AI 对话框，但是原本Ctrl+I是用来进行属性等 api 提示的，所以需要取消这个 AI 对话框功能。解决官网参考连接：https://vscode.js.cn/docs/copilot/setup#_remove-ai-features-from-vs-code 统一用户配置（没有开通 Copilot 的用户推荐）统一在 settings 中配置：取消勾选 disableAIFeatures tips：打开设置快捷键：Ctrl+, 工作目录配置（已经开通 Copilot 的用户推荐）在.vscode/settings.json中添加：

VS Code + WSL 下 GitHub 访问不稳定 & Copilot/Codex 一直 Thinking 的完整解决方案（国内平台安全版）

VS Code + WSL 下 GitHub 访问不稳定 & Copilot/Codex 一直 Thinking 的完整解决方案（国内平台安全版）本文记录一次开发环境排查过程：从 VS Code + WSL 环境下 GitHub 克隆失败，到 Copilot/Codex 长时间停在 “Thinking…” 的完整解决步骤。特别说明：文中提到的 “网络辅助工具”“连接加速端口”“外网连通性优化” 都指代常见的网络优化方式，用于解决访问境外开发资源时的稳定性问题（GitHub、Copilot 等）。 📌 一、问题概述使用 VS Code + WSL 进行开发时可能遇到以下问题： ❌ 1. Git clone 失败 fatal:

LFM2.5-1.2B-Thinking效果展示：小身材大能量的AI写作

LFM2.5-1.2B-Thinking效果展示：小身材大能量的AI写作 1. 惊艳开场：小模型的大惊喜当我第一次看到LFM2.5-1.2B-Thinking这个模型时，说实话有点怀疑——只有12亿参数的文本生成模型，能有多强的能力？但实际测试后，我被彻底打脸了。这个模型就像是一个小巧但功能齐全的瑞士军刀，虽然体积不大，但该有的功能一个不少。它能写文章、能对话、能创作故事，甚至还能帮你写代码注释。最让人惊喜的是，它的响应速度极快，在普通电脑上就能流畅运行，完全不需要昂贵的显卡。 2. 实际效果展示：文字创作的惊喜体验 2.1 创意写作能力让我给你看看这个模型的实际创作效果。我输入了一个简单的提示："写一段关于秋天的散文，要求有诗意和画面感" 模型生成的文字让我眼前一亮： "秋日的阳光透过稀疏的枝叶，在地上洒下斑驳的光影。微风轻拂，落叶如金色的蝴蝶般翩翩起舞，在空中划出优雅的弧线后悄然落地。空气中弥漫着成熟果实的香甜，混合着泥土的清新气息，这是季节更迭时独有的味道。远处的山峦披上了五彩的衣裳，深红、