LLaMA-Factory 快速入门（五）：终端命令实操记录

优质文章学习记录

07 Apr 2026 — 5 min read

文章目录

1. 引言
2. 命令使用
3. 总结

1. 引言

在使用 LLaMA-Factory 进行大模型的微调、评估和部署时，llamafactory-cli 是最常用的命令行工具。它不仅支持命令行对话、训练、评估，还提供了网页界面、API 服务等多种交互方式。

本文将详细介绍 llamafactory-cli 的常用命令及其使用方法，帮助你快速上手并高效完成相关任务。

2. 命令使用

命令	功能简述
llamafactory-cli api	启动 OpenAI 风格的 API 服务
llamafactory-cli chat	在命令行中启动聊天界面
llamafactory-cli eval	评估模型
llamafactory-cli export	合并 LoRA 适配器并导出模型
llamafactory-cli train	训练模型
llamafactory-cli webchat	启动网页聊天界面
llamafactory-cli webui	启动 LlamaBoard 界面
llamafactory-cli version	显示版本信息

2.1 version（显示版本）

功能：显示 LLaMA-Factory 的版本信息，验证安装是否成功

执行命令：

llamafactory-cli version

执行后的效果如下：

2.2 webui（启动 LlamaBoard 界面）

功能：启动可视化界面 LlamaBoard，提供图形化操作入口

执行命令：

llamafactory-cli webui

执行后返回：

浏览器访问：http://127.0.0.1:7860

2.3 chat（命令行聊天）

功能：接在终端中与模型进行对话，无需启动网页

最小化命令：

llamafactory-cli chat \--model_name_or_path 模型名称或本地路径 \--template 模板名称

例如：

llamafactory-cli chat \--model_name_or_path /Users/yanglinwei/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--template deepseekr1

执行效果如下：

当然也可以从模型训练完的chekcpoint启动，命令如下：

llamafactory-cli chat \--model_name_or_path 模型名称或本地路径 \--adapter_name_or_path 训练后的路径\--template 模板名称

例如：

llamafactory-cli chat \--model_name_or_path /Users/yanglinwei/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--adapter_name_or_path saves/DeepSeek-R1-1.5B-Distill/lora/cx_666_final_optimized \--template deepseekr1

2.4 webchat（网页聊天）

功能：启动网页端聊天界面

webchat的功能跟chat命令差不多，只是webchat是给了一个web页面进行对话。最小化命令如下：

llamafactory-cli webchat \--model_name_or_path 模型名称或本地路径 \--template 模板名称

例如：

llamafactory-cli webchat \--model_name_or_path /Users/yanglinwei/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--template deepseekr1

当然也可以从模型训练完的chekcpoint启动webchat，跟chat命令差不多：

llamafactory-cli webchat \--model_name_or_path 模型名称或本地路径 \--adapter_name_or_path 训练后的路径\--template 模板名称

2.5 api（启动 API 服务）

功能：启动 OpenAI 风格的 API 服务

最小化命令：

llamafactory-cli chat \--model_name_or_path 模型名称或本地路径 \--template 模板名称

例如执行：

llamafactory-cli api \--model_name_or_path /Users/yanglinwei/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--template deepseekr1

可以看到输出了如下信息：

浏览器访问：http://localhost:8000/docs

可以看到开放了3种API，分别是：

接口名称	路径	说明
List Models	`/v1/models`	列出当前可用的模型，用于查看可选择的模型信息
Create Chat Completion	`/v1/chat/completions`	生成聊天回复，用于对话或文本生成
Create Score Evaluation	`/v1/score/evaluation`	对模型输出进行评分或评估，用于检测生成内容质量

直接执行ListModels列出当前可用的模型，可以看见返回：

执行Create Chat Completion，示例请求内容如下：

{"model":"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", "messages":[{"role":"user", "content":"你好，可以自我介绍一下吗？"}], "do_sample": true, "temperature":0.7, "top_p":0.9, "n":1, "max_tokens":512, "stream":false}

可以看到返回：

2.6 train（训练模型）

功能：启动训练流程，对模型进行微调

详情可以参考：《LLaMA-Factory 快速入门（一）：Mac 下大模型微调与部署全流程》

2.7 eval（评估模型）

功能：：对训练后的模型进行性能评估

详情可以参考：《LLaMA-Factory 快速入门（一）：Mac 下大模型微调与部署全流程》

2.8 export（导出模型）

功能：合并 LoRA 适配器并导出最终模型

详情可以参考：《LLaMA-Factory 快速入门（一）：Mac 下大模型微调与部署全流程》

3. 总结

本文详细介绍了 LLaMA-Factory 的命令行工具 llamafactory-cli 的常用功能，包括版本检查、命令行聊天、网页聊天、可视化界面、API 服务，以及训练、评估、导出等核心操作。

可以先从 chat / webchat 开始，快速体验模型效果；
如果需要部署服务，建议使用 api 模式；
完整训练流程中，train → eval → export 是必经的三个步骤。

通过灵活使用这些命令，大家可以快速搭建起属于自己的大模型微调与应用环境。

昇腾NPU运行Llama模型全攻略：环境搭建、性能测试、问题解决一网打尽

背景最近几年，AI 大模型火得一塌糊涂，特别是像 Llama 这样的开源模型，几乎成了每个技术团队都在讨论的热点。不过，这些"巨无霸"模型虽然能力超强，但对硬件的要求也高得吓人。这时候，华为的昇腾 NPU 就派上用场了。说实话，昇腾 NPU 在 AI 计算这块确实有两把刷子。它专门为神经网络计算设计，不仅算力强劲，功耗控制得也不错，最关键的是灵活性很好，可以根据不同场景进行裁剪。所以，用它来跑大模型推理，理论上应该是个不错的选择。为什么偏偏选了 Llama 来测试？说到 Llama，这玩意儿现在可是开源界的"网红"。Meta 把它完全开源出来，社区生态搞得风生水起，各种优化和适配层出不穷。其实选择 Llama 做测试，主要有这么几个考虑：

Ascend Whisper 高效部署实战：从模型优化到生产环境避坑指南

快速体验在开始今天关于 Ascend Whisper 高效部署实战：从模型优化到生产环境避坑指南的探讨之前，我想先分享一个最近让我觉得很有意思的全栈技术挑战。我们常说 AI 是未来，但作为开发者，如何将大模型（LLM）真正落地为一个低延迟、可交互的实时系统，而不仅仅是调个 API？这里有一个非常硬核的动手实验：基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。从0到1构建生产级别应用，脱离Demo，点击打开从0打造个人豆包实时通话AI动手实验 Ascend Whisper 高效部署实战：从模型优化到生产环境避坑指南背景痛点分析语音识别模型在昇腾硬件上的部署常常面临几个关键挑战： * 计算图优化不足：原生PyTorch模型直接转换后，存在大量冗余计算节点，影响NPU执行效率

论文AI率多少算正常？各高校AIGC检测标准汇总解读

论文AI率多少算正常？各高校AIGC检测标准汇总解读 “我的论文AI率23%，能过吗？” 这可能是2026年毕业季被问得最多的一句话。问题在于，没有一个放之四海而皆准的答案——你在清华和在地方院校面临的标准完全不同，本科和硕士的要求也不一样，甚至同一所学校不同学院之间都可能存在差异。本文将尽可能完整地梳理2026年各高校的AIGC检测标准，帮你准确判断自己的论文处于什么位置，以及需要达到什么水平。一、先搞清楚一个前提：检测平台的差异在讨论"多少算正常"之前，必须先明确一个经常被忽略的问题：不同检测平台对同一篇论文给出的AI率可能相差很大。目前国内高校采用的AIGC检测平台主要有四家：知网、维普、万方、大雅。其中知网占据主导地位，大部分985/211院校和相当比例的普通本科院校都采用知网检测。同一篇论文在不同平台上的检测结果可能差距悬殊。一篇文章在知网检测显示AI率28%，在维普上可能显示42%，在万方上又可能只有15%。这种差异源于各平台采用的检测算法和训练数据不同。所以当你对照标准评估自己的论文时，一定要搞清楚你的学校用的是哪个平台，然后在对应平台上做检

AR交互设计新范式：虚拟按钮与手势控制在教育类应用中的创新融合

AR交互设计新范式：虚拟按钮与手势控制在教育类应用中的创新融合当孩子们第一次用手指在空中旋转恐龙模型时，他们的眼睛会发光——这正是教育科技产品最珍贵的时刻。作为AR内容创作者，我们正站在交互设计革命的起点：虚拟按钮的精确性与手势控制的自然性正在教育场景中产生奇妙的化学反应。这种融合不仅改变了知识传递的方式，更重塑了学习体验的本质。 1. 教育场景下的AR交互设计原则儿童教育类AR应用的特殊性在于，它需要同时满足两个看似矛盾的需求：交互必须足够简单直观，让孩子无需指导就能上手；同时又要具备足够的精确性，确保教学目标的准确达成。这就像设计一个既能让三岁孩童轻松玩耍，又能让专业钢琴家演奏交响乐的键盘。认知负荷理论告诉我们，儿童的注意力资源有限。根据剑桥大学的研究，5-8岁儿童的平均专注时长仅为12-18分钟。因此，我们的交互设计必须遵循以下黄金法则： * 即时反馈原则：任何操作都应在300ms内给予明确响应 * 容错设计：错误操作不应导致系统崩溃或流程中断 * 多通道反馈：同时激活视觉、听觉和触觉反馈通道 * 渐进式复杂度：交互难度随学习进度动态调整芝加哥儿童博

文章目录

1. 引言

2. 命令使用

2.1 version（显示版本）

2.2 webui（启动 LlamaBoard 界面）

2.3 chat（命令行聊天）

2.4 webchat（网页聊天）

2.5 api（启动 API 服务）

2.6 train（训练模型 ）

2.7 eval（评估模型 ）

2.8 export（导出模型 ）

3. 总结

Read more

昇腾NPU运行Llama模型全攻略：环境搭建、性能测试、问题解决一网打尽

Ascend Whisper 高效部署实战：从模型优化到生产环境避坑指南

论文AI率多少算正常？各高校AIGC检测标准汇总解读

AR交互设计新范式：虚拟按钮与手势控制在教育类应用中的创新融合

2.6 train（训练模型）

2.7 eval（评估模型）

2.8 export（导出模型）