LLaMAFactory、ModelScope 大模型微调实战（下）

优质文章学习记录

08 Apr 2026 — 4 min read

一、前言

上次简单介绍了下 LLaMAFactory、ModelScope的微调，今天再来总结下如何部署已经微调好的大模型。

直通车→→→ https://blog.ZEEKLOG.net/tadexinnian/article/details/159154443

本次演示基于魔搭社区（https://www.modelscope.cn/my/mynotebook）

二、将模型转换为gguf

2.1 克隆llama.cpp 并安装环境依赖

-- 进入根目录 cd /mnt/workspace -- 需要用 llama.cpp 仓库的 convert_hf_to_gguf.py 脚本来转换 git clone https://github.com/ggerganov/llama.cpp.git -- 进入llama.cpp文件夹 cd llama.cpp -- 创建虚拟环境 python -m venv .venv -- 进入虚拟环境 source .venv/bin/activate -- 安装依赖 pip install -r requirements.txt

2.2 转换模型为 gguf

python convert_hf_to_gguf.py /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --outtype q8_0 --verbose --outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

执行结束后，gguf 文件会保存在

/mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

三、部署

3.1 基于llmma.app （推荐）

github https://github.com/ggml-org/llama.cp

3.1.1 安装llama.app

可参考 https://github.com/ggml-org/llama.cpp/blob/master/docs/install.md#homebrew-mac-and-linux

brew install llama.cpp

***如果提示未安装brew 执行下面的命令

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

3.1.2 加载大模型（cli模式）

llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

可在命令行跟大模型提问

3.1.3 以服务的模式加载大模型（server模式）

llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080 # Basic web UI can be accessed via browser: http://localhost:8080 # Chat completion endpoint: http://localhost:8080/v1/chat/completions

访问 http://localhost:8080

3.2 基于ollama

-- 进入合并后的模型目录 cd /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged -- 创建模型 ollama create my-qwen3-4b-sft-merged -f Modelfile -- 启动模型 ollama run my-qwen3-4b-sft-merged

启动时候报错，这是因为我们使用的Qwen3模型，ollama还没有支持，建议使用llama.cpp方式测试部署。

四、将模型上传至modelscope

4.1 获取token

https://www.modelscope.cn/my/access/token

4.2 获取用户名

https://www.modelscope.cn/my/settings/account

4.3 上传模型

-- 上传gguf 版本 modelscope upload 你的用户名/qwen3-4b-sft-merged-gguf /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --token 你的token

4.4 查看上传结果

https://www.modelscope.cn/my/myspace

4.5 下载上传之后的模型

https://www.modelscope.cn/models/tadexinnian/qwen3-4b-sft-merged-gguf

-- 安装modelscope pip install modelscope -- 下载模型 modelscope download --model tadexinnian/qwen3-4b-sft-merged-gguf

以windows 下载为例子，模型最终下载保存在

C:\Users\PC\.cache\modelscope\hub\models\tadexinnian\qwen3-4b-sft-merged-gguf\Qwen3-4B-Instruct_q8_0.gguf

五、结语

本文完整呈现了微调后大模型从格式转换到实际部署的全流程实践，通过 llama.cpp 实现 HF 模型到 GGUF 格式的转换，借助 llama.app 完成 CLI 与 Server 模式部署，并记录了 Ollama 部署 Qwen3 模型时的兼容问题，同时演示了 GGUF 模型在 ModelScope 平台的上传与下载流程。

整套方案以 llama.cpp 工具链为核心，步骤清晰、可直接复现，为轻量化大模型的本地部署与模型分享提供了一套实用的工程化参考，也为后续同类模型的落地与优化奠定了基础。

用 Python 搭建本地 AI 问答系统：避开 90% 新手都会踩的环境坑

欢迎文末添加好友交流，共同进步！ “ 俺はモンキー・D・ルフィ。海贼王になる男だ！” * 前言 * 一、整体架构概览 * 二、新手踩坑分布图 * 三、环境搭建：最容易翻车的第一步 * 3.1 用虚拟环境隔离，别污染全局 * 3.2 PyTorch 安装：版本对齐是关键 * 3.3 依赖管理：用 requirements.txt 锁定版本 * 四、模型下载：别让网络毁了你的心情 * 4.1 使用 Ollama 管理本地模型（强烈推荐） * 4.2 用 Python 调用 Ollama * 五、搭建 RAG 问答系统 * 5.

AI Agent 架构：基础组成模块深度解析

AI Agent 架构：基础组成模块深度解析 📝 本章学习目标：本章是入门认知部分，帮助零基础读者建立对AI Agent的初步认知。通过本章学习，你将全面掌握"AI Agent 架构：基础组成模块深度解析"这一核心主题。一、引言：为什么这个话题如此重要在AI Agent快速发展的今天，AI Agent 架构：基础组成模块深度解析已经成为每个开发者和研究者必须了解的核心知识。无论你是技术背景还是非技术背景，理解这一概念都将帮助你更好地把握AI时代的机遇。 1.1 背景与意义 💡 核心认知：AI Agent正在从"对话工具"进化为"执行引擎"，能够主动完成任务、调用工具、与外部世界交互。这一变革正在深刻改变我们的工作和生活方式。从2023年AutoGPT的横空出世，到如今百花齐放的Agent生态，短短一年多时间，执行式AI已经从概念走向落地。根据最新统计，

ComfyUI-Manager 终极指南：如何高效管理AI绘画工作流节点和模型 [特殊字符]

ComfyUI-Manager 终极指南：如何高效管理AI绘画工作流节点和模型 🎨 【免费下载链接】ComfyUI-ManagerComfyUI-Manager is an extension designed to enhance the usability of ComfyUI. It offers management functions to install, remove, disable, and enable various custom nodes of ComfyUI. Furthermore, this extension provides a hub feature and convenience functions to access a wide range of information within ComfyUI. 项目地址:

解决下载慢问题：国内可用的Stable Diffusion和LLaMA模型镜像站清单

国内可用的Stable Diffusion和LLaMA模型镜像站清单：高效解决下载慢问题在AI生成内容（AIGC）迅速普及的今天，越来越多开发者、设计师和研究人员开始尝试本地部署Stable Diffusion或微调LLaMA这类大模型。但一个现实问题始终困扰着国内用户——模型下载太慢了。你有没有经历过这样的场景？打开Hugging Face准备下载一个7GB的SDXL基础模型，进度条爬得比蜗牛还慢，半小时才下完一半，结果网络一断，前功尽弃。更别提训练LoRA时需要频繁拉取不同版本的基础权重，这种体验简直让人崩溃。这背后的原因并不复杂：主流模型大多托管在境外平台（如Hugging Face、Replicate），而原始文件动辄数GB甚至数十GB，加上跨境链路不稳定、DNS污染、限速等问题，直接导致国内直连下载效率极低，严重拖慢了从环境搭建到实际训练的整体节奏。好在社区早已意识到这个问题，并催生出一批高质量的国内模型镜像站点。它们通过在国内服务器缓存常用模型文件，提供HTTPS加速链接，极大提升了获取效率。配合LoRA这类轻量化微调技术，如今我们完全可以在消费级显卡上完成