本文介绍在 Windows 系统下利用 llamafile 结合内网穿透工具,实现本地大语言模型部署及远程访问的完整流程。
llamafile 是一种 AI 大模型部署方案,可将模型和运行环境打包成独立可执行文件。用户只需下载并执行该文件,无需安装运行环境或依赖库,支持 macOS、Windows、Linux 等系统。
1. 下载 llamafile
访问 ModelScope 下载 llamafile 压缩包,解压后得到 llamafile.exe 文件。
下载地址:https://www.modelscope.cn/api/v1/models/bingal/llamafile-models/repo?Revision=master&FilePath=llamafile-0.6.2.win.zip
2. 下载大语言模型
进入 ModelScope 模型页面下载所需的大语言模型文件(如 Qwen-7B)。将下载的模型文件与 llamafile.exe 放在同一目录下。
下载地址:https://www.modelscope.cn/models/bingal/llamafile-models/
3. 运行大语言模型
在当前目录打开 PowerShell 命令窗口,执行以下命令启动服务:
.\.\llamafile-0.6.2.exe -m .\.\Qwen-7B-Chat-q4_0.llamafile -ngl 999 --port 8080 --host 0.0.0.0
说明:
-m: 指定模型文件路径-ngl: 调用 GPU 层数--port: Web 界面访问端口(默认 8080)--host: 监听地址(默认 0.0.0.0)
执行成功后,浏览器会自动跳转至 Web UI 界面,或在手动访问 http://localhost:8080 进行对话。
4. 安装 Cpolar 工具
访问 Cpolar 官网注册账号并下载 Windows 客户端。 官网:https://www.cpolar.com/
安装完成后,在浏览器访问 http://localhost:9200 登录管理界面。
5. 配置远程访问地址
在 Cpolar 管理界面点击'隧道管理'->'创建隧道',配置如下:
- 隧道名称:自定义(避免重复)
- 协议:http
- 本地地址:8080
- 域名类型:免费随机域名
- 地区:China
点击创建后,在状态列表查看生成的公网访问地址。
6. 远程访问对话界面
在浏览器输入公网域名即可访问本地模型 Web UI,完成远程对话。
7. 固定远程访问地址
如需固定域名,需升级 Cpolar 套餐并预留二级子域名。
- 登录 Cpolar 官网后台,点击左侧'预留'->'保留二级子域名'。
- 设置并复制保留成功的子域名名称。
- 返回管理界面编辑隧道,将域名类型改为'二级子域名',填入预留的名称。
- 更新隧道信息,此时公网地址将变更为固定域名。
注意:随机域名适合临时使用,固定域名便于分享和长期访问。


