llamafile 本地部署大语言模型及远程访问实战教程

在 Windows 系统下使用 llamafile 部署本地大语言模型的完整流程。首先下载并解压 llamafile 可执行文件，获取 Qwen 等模型文件。通过命令行启动服务，实现本地 Web UI 对话。随后利用 Cpolar 内网穿透工具创建隧道，将本地服务暴露至公网，支持固定或随机域名访问，从而实现随时随地远程调用大模型。

王者发布于 2026/4/6更新于 2026/4/174 浏览

本文介绍在 Windows 系统下利用 llamafile 结合内网穿透工具，实现本地大语言模型部署及远程访问的完整流程。

llamafile 是一种 AI 大模型部署方案，可将模型和运行环境打包成独立可执行文件。用户只需下载并执行该文件，无需安装运行环境或依赖库，支持 macOS、Windows、Linux 等系统。

1. 下载 llamafile

访问 ModelScope 下载 llamafile 压缩包，解压后得到 llamafile.exe 文件。下载地址：https://www.modelscope.cn/api/v1/models/bingal/llamafile-models/repo?Revision=master&FilePath=llamafile-0.6.2.win.zip

2. 下载大语言模型

进入 ModelScope 模型页面下载所需的大语言模型文件（如 Qwen-7B）。将下载的模型文件与 llamafile.exe 放在同一目录下。下载地址：https://www.modelscope.cn/models/bingal/llamafile-models/

3. 运行大语言模型

在当前目录打开 PowerShell 命令窗口，执行以下命令启动服务：

.\.\llamafile-0.6.2.exe -m .\.\Qwen-7B-Chat-q4_0.llamafile -ngl 999 --port 8080 --host 0.0.0.0

说明：

-m: 指定模型文件路径
-ngl: 调用 GPU 层数
--port: Web 界面访问端口（默认 8080）
--host: 监听地址（默认 0.0.0.0）

执行成功后，浏览器会自动跳转至 Web UI 界面，或在手动访问 http://localhost:8080 进行对话。

4. 安装 Cpolar 工具

访问 Cpolar 官网注册账号并下载 Windows 客户端。官网：https://www.cpolar.com/

安装完成后，在浏览器访问 http://localhost:9200 登录管理界面。

5. 配置远程访问地址

在 Cpolar 管理界面点击'隧道管理'->'创建隧道'，配置如下：

隧道名称：自定义（避免重复）
协议：http
本地地址：8080
域名类型：免费随机域名
地区：China

点击创建后，在状态列表查看生成的公网访问地址。

6. 远程访问对话界面

在浏览器输入公网域名即可访问本地模型 Web UI，完成远程对话。

7. 固定远程访问地址

如需固定域名，需升级 Cpolar 套餐并预留二级子域名。

登录 Cpolar 官网后台，点击左侧'预留'->'保留二级子域名'。
设置并复制保留成功的子域名名称。
返回管理界面编辑隧道，将域名类型改为'二级子域名'，填入预留的名称。
更新隧道信息，此时公网地址将变更为固定域名。

注意：随机域名适合临时使用，固定域名便于分享和长期访问。

llamafile 本地部署大语言模型及远程访问实战教程

1. 下载 llamafile

2. 下载大语言模型

3. 运行大语言模型

4. 安装 Cpolar 工具

5. 配置远程访问地址

6. 远程访问对话界面

7. 固定远程访问地址

更多推荐文章

相关免费在线工具

llamafile 本地部署大语言模型及远程访问实战教程

1. 下载 llamafile

2. 下载大语言模型

3. 运行大语言模型

4. 安装 Cpolar 工具

5. 配置远程访问地址

6. 远程访问对话界面

7. 固定远程访问地址

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具