LLaMAFactory、ModelScope 大模型微调实战（下）

优质文章学习记录

09 Apr 2026 — 4 min read

一、前言

上次简单介绍了下 LLaMAFactory、ModelScope的微调，今天再来总结下如何部署已经微调好的大模型。

直通车→→→ https://blog.ZEEKLOG.net/tadexinnian/article/details/159154443

本次演示基于魔搭社区（https://www.modelscope.cn/my/mynotebook）

二、将模型转换为gguf

2.1 克隆llama.cpp 并安装环境依赖

-- 进入根目录 cd /mnt/workspace -- 需要用 llama.cpp 仓库的 convert_hf_to_gguf.py 脚本来转换 git clone https://github.com/ggerganov/llama.cpp.git -- 进入llama.cpp文件夹 cd llama.cpp -- 创建虚拟环境 python -m venv .venv -- 进入虚拟环境 source .venv/bin/activate -- 安装依赖 pip install -r requirements.txt

2.2 转换模型为 gguf

python convert_hf_to_gguf.py /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --outtype q8_0 --verbose --outfile /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

执行结束后，gguf 文件会保存在

/mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

三、部署

3.1 基于llmma.app （推荐）

github https://github.com/ggml-org/llama.cp

3.1.1 安装llama.app

可参考 https://github.com/ggml-org/llama.cpp/blob/master/docs/install.md#homebrew-mac-and-linux

brew install llama.cpp

***如果提示未安装brew 执行下面的命令

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

3.1.2 加载大模型（cli模式）

llama-cli -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf

可在命令行跟大模型提问

3.1.3 以服务的模式加载大模型（server模式）

llama-server -m /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged/Qwen3-4B-Instruct_q8_0.gguf --port 8080 # Basic web UI can be accessed via browser: http://localhost:8080 # Chat completion endpoint: http://localhost:8080/v1/chat/completions

访问 http://localhost:8080

3.2 基于ollama

-- 进入合并后的模型目录 cd /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged -- 创建模型 ollama create my-qwen3-4b-sft-merged -f Modelfile -- 启动模型 ollama run my-qwen3-4b-sft-merged

启动时候报错，这是因为我们使用的Qwen3模型，ollama还没有支持，建议使用llama.cpp方式测试部署。

四、将模型上传至modelscope

4.1 获取token

https://www.modelscope.cn/my/access/token

4.2 获取用户名

https://www.modelscope.cn/my/settings/account

4.3 上传模型

-- 上传gguf 版本 modelscope upload 你的用户名/qwen3-4b-sft-merged-gguf /mnt/workspace/LLaMA-Factory/saves/qwen3_sft_merged --token 你的token

4.4 查看上传结果

https://www.modelscope.cn/my/myspace

4.5 下载上传之后的模型

https://www.modelscope.cn/models/tadexinnian/qwen3-4b-sft-merged-gguf

-- 安装modelscope pip install modelscope -- 下载模型 modelscope download --model tadexinnian/qwen3-4b-sft-merged-gguf

以windows 下载为例子，模型最终下载保存在

C:\Users\PC\.cache\modelscope\hub\models\tadexinnian\qwen3-4b-sft-merged-gguf\Qwen3-4B-Instruct_q8_0.gguf

五、结语

本文完整呈现了微调后大模型从格式转换到实际部署的全流程实践，通过 llama.cpp 实现 HF 模型到 GGUF 格式的转换，借助 llama.app 完成 CLI 与 Server 模式部署，并记录了 Ollama 部署 Qwen3 模型时的兼容问题，同时演示了 GGUF 模型在 ModelScope 平台的上传与下载流程。

整套方案以 llama.cpp 工具链为核心，步骤清晰、可直接复现，为轻量化大模型的本地部署与模型分享提供了一套实用的工程化参考，也为后续同类模型的落地与优化奠定了基础。

手机上也能运行Stable Diffusion？Github上开源且完全免费的AI生图软件！斩获1.4K Stars

Hello，大家好！今天给大家分享一款GitHub上1.4k星标的开源神器——手机端AI绘画工具，软件已经整理在文末，有需要的朋友记得获取保存哦～链接：https://pan.quark.cn/s/fa5abdb93460 一、软件打开方式这款工具为安卓APK安装包，共提供两个版本：带过滤器版本和不带过滤器版本，大家可以根据自己的需求选择。下载后直接安装到手机上即可运行，无需复杂配置。二、软件的功能介绍这是一款让安卓手机直接运行Stable Diffusion的AI绘画工具，主要特色包括：全功能AI绘画支持文生图：输入提示词一键生成图像支持图生图：导入参考图片二次创作支持图像修复：模糊图片一键变清晰多模式加速支持CPU/GPU/NPU三种运行模式高通骁龙处理器可启用NPU加速，生成速度极快非骁龙处理器也可用CPU/GPU流畅运行开源免费 GitHub开源项目，完全免费无限制模型可自由下载切换三、使用指南第一步：安装与首次设置

5款开源PPT生成大模型实测对比：从ChatGPT到文心一言，哪款最适合你？

5款开源PPT生成大模型深度评测：从技术原理到实战效果在数字化办公时代，PPT制作已成为职场人士的日常必修课。传统PPT制作流程耗时费力，从内容构思到排版设计往往需要数小时甚至更长时间。而随着AI技术的快速发展，开源大模型正在彻底改变这一局面——只需简单指令，AI就能在几分钟内生成结构完整、设计专业的演示文稿。本文将聚焦5款最具代表性的开源PPT生成工具，从技术架构、生成效果到适用场景进行全面对比，帮助技术从业者和内容创作者找到最适合自己的生产力利器。 1. 开源PPT生成技术概览 PPT生成AI的核心在于将自然语言指令转化为结构化视觉呈现，这背后涉及三大关键技术模块： 1. 内容理解引擎：基于大语言模型（LLM）解析用户输入的文本指令，提取关键信息并组织成逻辑连贯的叙述结构 2. 设计适配系统：根据内容类型自动匹配最佳版式，包括布局、配色、字体等视觉元素 3. 文档生成组件：将结构化内容与设计模板融合，输出标准PPT文件格式（如.pptx）当前主流开源方案主要分为两类架构：架构类型代表模型核心优势典型适用场景API调用型ChatGPT-PPT生成质量高需

Flutter for OpenHarmony：TabBar 与 PageView 联动 —— 构建高效的内容导航系统

Flutter for OpenHarmony：TabBar 与 PageView 联动 —— 构建高效的内容导航系统在移动应用中，多标签页（Tabbed Interface）是最经典、最高效的内容组织模式之一。无论是社交应用的消息/联系人/动态，电商 App 的首页/分类/购物车，还是新闻客户端的热点/财经/科技频道，Tab 导航都能让用户在不同内容模块间快速切换，而无需返回上级页面。在 Flutter for OpenHarmony 开发中，通过 TabBar 与 PageView 的组合，我们可以轻松构建出既符合 Material Design 规范、又具备高度自定义能力的标签页系统。更重要的是，这套方案完全基于 Dart 实现，不依赖任何平台原生组件，因此在 OpenHarmony

一步到位！VSCode Copilot 终极魔改：智谱 GLM-4.6 接入 + 任意大模型适配

VSCode Copilot 接入 GLM-4.6 方法安装 vscode-zhipuai 插件后，在 VSCode 设置中添加以下配置： { "zhipuai.apiKey": "你的API_KEY", "zhipuai.model": "GLM-4" } 通过 Ctrl+Shift+P 调出命令面板，执行 ZhipuAI: Toggle Chat 即可激活对话窗口。该插件支持代码补全、对话和文档生成功能。任意大模型适配方案修改 VSCode 的 settings.json 实现通用 API 对接： { "ai.