LLaMAFactory、ModelScope 大模型微调实战（下）

优质文章学习记录

05 Apr 2026 — 4 min read

一、前言

上次简单介绍了下 LLaMAFactory、ModelScope的微调，今天再来总结下如何部署已经微调好的大模型。

直通车→→→ https://blog.ZEEKLOG.net/tadexinnian/article/details/159154443

本次演示基于魔搭社区（https://www.modelscope.cn/my/mynotebook）

二、将模型转换为gguf

2.1 克隆llama.cpp 并安装环境依赖

-- 进入根目录 cd /mnt/workspace -- 需要用 llama.cpp 仓库的 convert_hf_to_gguf.py 脚本来转换 git clone https://github.com/ggerganov/llama.cpp.git -- 进入llama.cpp文件夹 cd llama.cpp -- 创建虚拟环境 python -m venv .venv -- 进入虚拟环境 source .venv/bin/activate -- 安装依赖 pip install -r requirements.txt

2.2 转换模型为 gguf

python convert_hf_to_gguf.py /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --outtype q8_0 --verbose --outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

执行结束后，gguf 文件会保存在

/mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

三、部署

3.1 基于llmma.app （推荐）

github https://github.com/ggml-org/llama.cp

3.1.1 安装llama.app

可参考 https://github.com/ggml-org/llama.cpp/blob/master/docs/install.md#homebrew-mac-and-linux

brew install llama.cpp

***如果提示未安装brew 执行下面的命令

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

3.1.2 加载大模型（cli模式）

llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

可在命令行跟大模型提问

3.1.3 以服务的模式加载大模型（server模式）

llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080 # Basic web UI can be accessed via browser: http://localhost:8080 # Chat completion endpoint: http://localhost:8080/v1/chat/completions

访问 http://localhost:8080

3.2 基于ollama

-- 进入合并后的模型目录 cd /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged -- 创建模型 ollama create my-qwen3-4b-sft-merged -f Modelfile -- 启动模型 ollama run my-qwen3-4b-sft-merged

启动时候报错，这是因为我们使用的Qwen3模型，ollama还没有支持，建议使用llama.cpp方式测试部署。

四、将模型上传至modelscope

4.1 获取token

https://www.modelscope.cn/my/access/token

4.2 获取用户名

https://www.modelscope.cn/my/settings/account

4.3 上传模型

-- 上传gguf 版本 modelscope upload 你的用户名/qwen3-4b-sft-merged-gguf /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --token 你的token

4.4 查看上传结果

https://www.modelscope.cn/my/myspace

4.5 下载上传之后的模型

https://www.modelscope.cn/models/tadexinnian/qwen3-4b-sft-merged-gguf

-- 安装modelscope pip install modelscope -- 下载模型 modelscope download --model tadexinnian/qwen3-4b-sft-merged-gguf

以windows 下载为例子，模型最终下载保存在

C:\Users\PC\.cache\modelscope\hub\models\tadexinnian\qwen3-4b-sft-merged-gguf\Qwen3-4B-Instruct_q8_0.gguf

五、结语

本文完整呈现了微调后大模型从格式转换到实际部署的全流程实践，通过 llama.cpp 实现 HF 模型到 GGUF 格式的转换，借助 llama.app 完成 CLI 与 Server 模式部署，并记录了 Ollama 部署 Qwen3 模型时的兼容问题，同时演示了 GGUF 模型在 ModelScope 平台的上传与下载流程。

整套方案以 llama.cpp 工具链为核心，步骤清晰、可直接复现，为轻量化大模型的本地部署与模型分享提供了一套实用的工程化参考，也为后续同类模型的落地与优化奠定了基础。

Web 毕设篇-适合小白、初级入门练手的 Spring Boot Web 毕业设计项目：药品进销存信息管理系统（前后端源码 + 数据库 sql 脚本）

🔥博客主页：【小扳_-ZEEKLOG博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 项目介绍 1.1 项目功能 2.0 用户登录功能 3.0 首页界面 4.0 供应商管理功能 5.0 药品管理功能 6.0 采购记录管理功能 7.0 销售记录管理功能 8.0 退货记录管理功能 9.0 库存变动管理功能 10.0 SQL 数据库设计 1.0 项目介绍开发工具：IDEA、VScode 服务器：Tomcat， JDK

365图库六合图库资料源码/前端uniapp/搭建教程

源码介绍：这个前端是uni-app带源码，后端thinkPHP框架有些功能还没开发完，有些图标也没显示，不过好在都是开源的，你们可以自行二开，仅供学习研究之用，请勿商用。下载地址（无套路，无须解压密码）https://pan.quark.cn/s/b415b9e38812 源码截图：

libwebkit2gtk-4.1-0安装常见错误与GUI依赖冲突解析

深入 libwebkit2gtk-4.1-0 安装困局：从依赖地狱到 GUI 环境的隐秘耦合你有没有在某个 CI 流水线里，看着 apt install libwebkit2gtk-4.1-0 突然失败而一头雾水？或者在 Docker 容器中启动一个基于 WebKitGTK 的应用时，收到一条冰冷的错误：“Unable to initialize GTK: cannot open display”？这并不是你的配置写错了，而是你撞上了 Linux 图形生态长期积累的“隐性契约”—— 看似只是一个库安装，实则牵动整个 GUI 栈的神经末梢。今天，我们就来彻底拆解 libwebkit2gtk-4.1-0 这个包背后的复杂世界。它不只是一个网页渲染引擎，更是一面镜子，照出了 Linux 桌面系统在模块化、安全性与兼容性之间微妙平衡的真实代价。为什么这个库如此“

Java Web 影城会员管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

摘要随着数字化时代的快速发展，影院行业对会员管理的需求日益增长。传统的会员管理方式依赖人工操作，效率低下且容易出错，无法满足现代影院对会员数据分析、个性化服务和高效运营的需求。影城会员管理系统通过信息化手段，实现会员信息的集中管理、消费记录的实时跟踪以及会员权益的精准发放，从而提升影院的服务质量和运营效率。该系统能够帮助影院更好地了解会员需求，优化营销策略，增强会员粘性，为影院创造更大的商业价值。关键词：数字化、会员管理、影院行业、信息化、运营效率。该系统基于SpringBoot2框架开发，采用前后端分离架构，前端使用Vue3实现动态交互界面，后端通过MyBatis-Plus高效操作MySQL8.0数据库。系统功能涵盖会员注册与登录、会员信息管理、消费记录查询、积分管理、优惠券发放以及数据分析报表生成。通过Spring Security实现权限控制，确保系统安全性；利用Redis缓存提升系统性能；结合Vue3的响应式特性，为用户提供流畅的操作体验。系统还支持多维度数据分析，帮助影院管理者制定科学的营销策略。关键词：SpringBoot2、Vue3、MyBatis-Plus、My