LLaMA-Factory 快速入门（五）：终端命令实操记录

优质文章学习记录

06 Apr 2026 — 5 min read

文章目录

1. 引言
2. 命令使用
3. 总结

1. 引言

在使用 LLaMA-Factory 进行大模型的微调、评估和部署时，llamafactory-cli 是最常用的命令行工具。它不仅支持命令行对话、训练、评估，还提供了网页界面、API 服务等多种交互方式。

本文将详细介绍 llamafactory-cli 的常用命令及其使用方法，帮助你快速上手并高效完成相关任务。

2. 命令使用

命令	功能简述
llamafactory-cli api	启动 OpenAI 风格的 API 服务
llamafactory-cli chat	在命令行中启动聊天界面
llamafactory-cli eval	评估模型
llamafactory-cli export	合并 LoRA 适配器并导出模型
llamafactory-cli train	训练模型
llamafactory-cli webchat	启动网页聊天界面
llamafactory-cli webui	启动 LlamaBoard 界面
llamafactory-cli version	显示版本信息

2.1 version（显示版本）

功能：显示 LLaMA-Factory 的版本信息，验证安装是否成功

执行命令：

llamafactory-cli version

执行后的效果如下：

2.2 webui（启动 LlamaBoard 界面）

功能：启动可视化界面 LlamaBoard，提供图形化操作入口

执行命令：

llamafactory-cli webui

执行后返回：

浏览器访问：http://127.0.0.1:7860

2.3 chat（命令行聊天）

功能：接在终端中与模型进行对话，无需启动网页

最小化命令：

llamafactory-cli chat \--model_name_or_path 模型名称或本地路径 \--template 模板名称

例如：

llamafactory-cli chat \--model_name_or_path /Users/yanglinwei/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--template deepseekr1

执行效果如下：

当然也可以从模型训练完的chekcpoint启动，命令如下：

llamafactory-cli chat \--model_name_or_path 模型名称或本地路径 \--adapter_name_or_path 训练后的路径\--template 模板名称

例如：

llamafactory-cli chat \--model_name_or_path /Users/yanglinwei/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--adapter_name_or_path saves/DeepSeek-R1-1.5B-Distill/lora/cx_666_final_optimized \--template deepseekr1

2.4 webchat（网页聊天）

功能：启动网页端聊天界面

webchat的功能跟chat命令差不多，只是webchat是给了一个web页面进行对话。最小化命令如下：

llamafactory-cli webchat \--model_name_or_path 模型名称或本地路径 \--template 模板名称

例如：

llamafactory-cli webchat \--model_name_or_path /Users/yanglinwei/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--template deepseekr1

当然也可以从模型训练完的chekcpoint启动webchat，跟chat命令差不多：

llamafactory-cli webchat \--model_name_or_path 模型名称或本地路径 \--adapter_name_or_path 训练后的路径\--template 模板名称

2.5 api（启动 API 服务）

功能：启动 OpenAI 风格的 API 服务

最小化命令：

llamafactory-cli chat \--model_name_or_path 模型名称或本地路径 \--template 模板名称

例如执行：

llamafactory-cli api \--model_name_or_path /Users/yanglinwei/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--template deepseekr1

可以看到输出了如下信息：

浏览器访问：http://localhost:8000/docs

可以看到开放了3种API，分别是：

接口名称	路径	说明
List Models	`/v1/models`	列出当前可用的模型，用于查看可选择的模型信息
Create Chat Completion	`/v1/chat/completions`	生成聊天回复，用于对话或文本生成
Create Score Evaluation	`/v1/score/evaluation`	对模型输出进行评分或评估，用于检测生成内容质量

直接执行ListModels列出当前可用的模型，可以看见返回：

执行Create Chat Completion，示例请求内容如下：

{"model":"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", "messages":[{"role":"user", "content":"你好，可以自我介绍一下吗？"}], "do_sample": true, "temperature":0.7, "top_p":0.9, "n":1, "max_tokens":512, "stream":false}

可以看到返回：

2.6 train（训练模型）

功能：启动训练流程，对模型进行微调

详情可以参考：《LLaMA-Factory 快速入门（一）：Mac 下大模型微调与部署全流程》

2.7 eval（评估模型）

功能：：对训练后的模型进行性能评估

详情可以参考：《LLaMA-Factory 快速入门（一）：Mac 下大模型微调与部署全流程》

2.8 export（导出模型）

功能：合并 LoRA 适配器并导出最终模型

详情可以参考：《LLaMA-Factory 快速入门（一）：Mac 下大模型微调与部署全流程》

3. 总结

本文详细介绍了 LLaMA-Factory 的命令行工具 llamafactory-cli 的常用功能，包括版本检查、命令行聊天、网页聊天、可视化界面、API 服务，以及训练、评估、导出等核心操作。

可以先从 chat / webchat 开始，快速体验模型效果；
如果需要部署服务，建议使用 api 模式；
完整训练流程中，train → eval → export 是必经的三个步骤。

通过灵活使用这些命令，大家可以快速搭建起属于自己的大模型微调与应用环境。

Llama-3.2V-11B-cot从零开始：模型路径修改→启动→传图→提问全链路

Llama-3.2V-11B-cot从零开始：模型路径修改→启动→传图→提问全链路 1. 项目简介 Llama-3.2V-11B-cot是基于Meta Llama-3.2V-11B-cot多模态大模型开发的高性能视觉推理工具，专为双卡4090环境优化。它解决了视觉权重加载等关键问题，支持CoT(Chain of Thought)逻辑推演和流式输出，通过Streamlit提供现代化聊天界面，让11B级大模型的视觉推理能力触手可及。 1.1 核心优势 * 开箱即用：预置最优参数，无需复杂配置 * 双卡优化：自动分配两张4090显卡资源 * 新手友好：仿日常聊天软件的交互设计 * 推理透明：展示完整思考过程而非仅结果 2. 环境准备 2.1 硬件要求 * 显卡：双NVIDIA RTX 4090(24GB显存) * 内存：建议64GB以上 * 存储：至少50GB可用空间 2.2 软件依赖

300%性能提升：whisper.cpp BLAS集成与OpenBLAS加速全攻略

还在为CPU环境下whisper.cpp语音识别的缓慢速度而苦恼？想要在普通硬件上实现接近实时的转录效果？本文为你揭秘通过BLAS集成和OpenBLAS优化实现300%性能提升的完整方案，从问题诊断到实战配置，一站式解决你的性能瓶颈。【免费下载链接】whisper.cppOpenAI 的 Whisper 模型在 C/C++ 中的移植版本。项目地址: https://gitcode.com/GitHub_Trending/wh/whisper.cpp 痛点分析：为什么你的whisper.cpp运行缓慢？性能瓶颈根源 whisper.cpp默认使用纯C实现的朴素矩阵乘法算法，在处理Transformer架构的大尺寸矩阵时效率极低。核心问题包括： * 算法复杂度高：朴素矩阵乘法时间复杂度O(n³)，计算量随音频长度指数级增长 * 单线程计算：无法充分利用现代多核CPU的并行计算能力 * 内存访问低效：缺乏缓存优化，频繁的内存读写成为性能制约因素典型场景下的性能表现音频长度默认配置耗时用户期望耗时性能差距10秒8-10秒2-3秒300%+ 解决方案：

1.2 Whisper的安装与配置 | 《Whisper语音识别实战专栏》

引言在前一篇文章中，我们了解了Whisper的基本概念、发展背景和主要特点。现在，我们将介绍Whisper的安装与配置方法，帮助您快速上手使用Whisper。 Whisper的安装相对简单，主要包括Python环境配置、Whisper库安装和FFmpeg配置三个步骤。在本文章中，我们将详细介绍每个步骤的具体操作方法，并提供常见问题的解决方案。系统要求在安装Whisper之前，您需要确保您的系统满足以下要求： * 操作系统：Windows、macOS或Linux * Python版本：3.8-3.11 * PyTorch版本：支持最新版本的PyTorch * 硬件要求： * CPU：支持x86_64架构的处理器 * GPU（可选）：支持CUDA的NVIDIA GPU（用于加速模型推理） * 内存：至少4GB RAM，推荐8GB以上安装步骤 1. 配置Python环境首先，您需要安装Python环境。如果您已经安装了Python 3.8-3.11，可以跳过这一步。 1.1

AI编程助手横向评测：GitHub Copilot vs CodeWhisperer vs Cursor

随着AI编程助手在软件开发流程中的普及，测试工程师面临新的工具选型挑战。本次选取2023-2024年度最受关注的三大AI编程助手：GitHub Copilot（基于OpenAI技术）、Amazon CodeWhisperer（AWS生态系统集成）和Cursor（融合GPT-4的代码编辑器），从测试代码生成准确性、测试框架适配度、调试支持能力等维度展开深度对比。核心能力维度对比 1. 测试脚本生成能力 GitHub Copilot * 优势：基于海量开源代码训练，对JUnit、Selenium、Cypress等主流测试框架支持成熟 * 典型场景：输入"生成登录功能的Page Object模型测试"可自动补全元素定位和断言逻辑 * 局限：对数据驱动测试的参数化场景支持较弱 CodeWhisperer * 优势：深度集成AWS测试服务（如Device Farm），生成代码可直接部署云端执行 * 典型场景：编写Appium移动端测试时自动推荐设备配置参数 * 局限：社区生态示例较少导致创新测试模式支持不足 Cursor * 优势：通过AI聊天界面直接重构测试用

文章目录

1. 引言

2. 命令使用

2.1 version（显示版本）

2.2 webui（启动 LlamaBoard 界面）

2.3 chat（命令行聊天）

2.4 webchat（网页聊天）

2.5 api（启动 API 服务）

2.6 train（训练模型 ）

2.7 eval（评估模型 ）

2.8 export（导出模型 ）

3. 总结

Read more

Llama-3.2V-11B-cot从零开始：模型路径修改→启动→传图→提问全链路

300%性能提升：whisper.cpp BLAS集成与OpenBLAS加速全攻略

1.2 Whisper的安装与配置 | 《Whisper语音识别实战专栏》

AI编程助手横向评测：GitHub Copilot vs CodeWhisperer vs Cursor

2.6 train（训练模型）

2.7 eval（评估模型）

2.8 export（导出模型）