简单易学的分离式部署小米智能家居Miloco方法

优质文章学习记录

08 Apr 2026 — 4 min read

一、安装环境

Windows用户：安装WSL2以及Docker
macOS/Linux用户：安装Docker
此处不再赘述，网上随便找个教程即可。特别地，对于Windows用户来说，你需要将 WSL2 的网络模式设置为 Mirrored。

二、使用Docker部署Miloco后端

以下均为bash命令。请Windows用户进入WSL2 / Linux、macOS用户进入终端操作：

mkdir miloco cd milico vi docker-compose.yml

以下是compose的内容（不会使用vi的同学可以傻瓜式操作：先按i，再使用粘贴功能，然后按冒号，输入wq然后回车，记得关闭输入法）：

services:backend:container_name: miloco-backend image: ghcr.nju.edu.cn/xiaomi/miloco-backend:latest network_mode: host expose:- ${BACKEND_PORT:-8000}environment:- BACKEND_HOST=${BACKEND_HOST:-0.0.0.0}- BACKEND_PORT=${BACKEND_PORT:-8000}- AI_ENGINE_HOST=${AI_ENGINE_HOST:-0.0.0.0}- AI_ENGINE_PORT=${AI_ENGINE_PORT:-8001}- BACKEND_LOG_LEVEL=${BACKEND_LOG_LEVEL:-info}- TZ=${TZ:-Asia/Shanghai}volumes:- ./data:/app/miloco_server/.temp - ./log/backend:/app/miloco_server/.temp/log restart: unless-stopped healthcheck:disable:true

再写个.env：

vi .env

以下是.env的内容：

TZ=Asia/Shanghai BACKEND_HOST=0.0.0.0 BACKEND_PORT=8000 BACKEND_LOG_LEVER=info AI_ENGINE_HOST=0.0.0.0 AI_ENGINE_PORT=8001 AI_ENGINE_LOG_LEVER=info

继续执行命令：

mkdir -p data mkdir -p log/backend docker compose up -d

静待下载镜像以及运行即可。

三、部署视觉大模型

对于小白用户（含非专业的AMD用户），此处建议使用LM Studio或Ollama来部署GGUF版的VL模型。
如果你有一张高性能NVIDIA显卡（RTX3090、RTX4090、RTX5090等显存>=24G的），想要更加专业稳定的服务，那么建议使用vLLM或SGLang进行生产级服务部署。
此处为了照顾Windows及macOS小白用户，以简单易用的LM Studio举例。

下载LM Studio并安装

https://lmstudio.ai/

设置及下载模型

点击界面最右下角的设置图标，

App Settings-General-Language-简体中文
App Settings-Developer-启用本地 LLM 服务

检查环境安装情况

还是在设置页-Runtime

NVIDIA用户

Vulkan llama.cpp
CUDA llama.cpp
CPU llama.cpp
CUDA 12 llama.cpp
Harmony

AMD用户

Vulkan llama.cpp
ROCm llama.cpp
CPU llama.cpp
Harmony

苹果用户

Vulkan llama.cpp
Metal llama.cpp
MLX llama.cpp
CPU llama.cpp
Harmony

下载模型

Model Search-搜索框中输入：xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF
点击右下角Download即可

运行模型并提供API服务

下载完成后点击页面左侧的“开发者”（一个绿色终端图标，位于对话图标下方）
点击页面顶部加载模型
你应该能够看到xiaomi-mimo-vl-miloco-7b是READY状态。
页面顶部有一个Status: Stopped，点击开关，切换到Running。
点击Server Settings，打开“在网络中提供服务”。
你将得到一个局域网地址，显示在右侧的Reachable at中，如：http://192.168.50.210:1234。复制它。

四、与Miloco对接

假设你的Docker宿主机IP为192.168.50.123，那么就访问https://192.168.50.123:8000/。首次设置会让你登录账号，登录后有一个callback地址，也填写192.168.50.123:8000。

对接VL模型

点击模型管理-云端模型-添加模型：
Base URL输入http://192.168.50.210:1234/v1
API Key随便填
模型ID填xiaomi-mimo-vl-miloco-7b，再点击一下以添加。
完成后在上方“视觉理解大模型”中选择云端：xiaomi-mimo-vl-miloco-7b

对接规划模型

对于许多用户来说，走到这一步的时候，想必你的显存/统一内存已经所剩无几了吧！让我们白嫖一下硅基流动的大模型。

访问https://cloud.siliconflow.cn/，注册并登录。
点击左侧的API密钥，生成一个，复制出来（sk开头的）
还是添加云端模型:
Base URL输入https://api.siliconflow.cn/v1
API Key填刚才生成的
模型ID选Qwen/Qwen3-8B
完成后在上方“规划大模型”中选择云端：Qwen/Qwen3-8B

回到AI中心，开始你的Miloco之旅吧！

五、一点Tips

对于规划模型，你可以尝试使用更强的大模型，它们调用工具更稳定，比如Kimi K2、Minimax M2等。Qwen3-8B的训练时间较早且对齐略有问题，可能不能很好地稳定调用工具。这只是一个便宜的入门之选。
对于VL模型，有条件的同学可以尝试部署全精度版本，使用vLLM提供服务，会获得更棒的体验。
官方文档中推荐的安装方式只是多集成了一个AI Engine，本质上就是对llama.cpp的封装。分离式部署大模型服务更灵活。
吐槽：我曾经想着提个pr来适配更多平台，但发现代码里硬编码了许多CUDA/nvidia相关的东西，蒜鸟蒜鸟。
有疑问可以联系我：[email protected]，不保证时效性。

最完整WhisperLiveKit指南：从安装到生产部署的AI语音识别全流程

最完整WhisperLiveKit指南：从安装到生产部署的AI语音识别全流程【免费下载链接】WhisperLiveKitReal-time, Fully Local Speech-to-Text and Speaker Diarization. FastAPI Server & Web Interface 项目地址: https://gitcode.com/GitHub_Trending/wh/WhisperLiveKit 你是否还在为实时语音转文字的延迟问题困扰？是否需要一个完全本地化部署的解决方案来保护数据隐私？WhisperLiveKit作为GitHub热门的开源项目，将彻底改变你处理实时语音识别的方式。本文将带你从安装到生产部署，掌握这一强大工具的全流程应用。读完本文，你将能够： * 快速搭建本地语音识别服务 * 根据硬件条件选择最优模型配置 * 实现多语言实时转录与说话人分离 * 部署生产级别的Web应用与Chrome扩展 * 通过Docker容器化实现跨平台部署为什么选择WhisperLiveKit？传统的Whisper模型设计用于处理完整语

LLaMA Factory训练可视化管理：Loss曲线解析与性能优化

作者：吴业亮博客：wuyeliang.blog.ZEEKLOG.net 在日常的大模型微调工作中，你是否经常遇到这些困扰：训练过程像个黑盒子，不知道模型到底学到了什么；损失曲线突然异常，却找不到问题根源；多轮实验参数混乱，无法有效对比效果？今天我们就来全面介绍LLaMA Factory这一强大的大模型微调框架，重点讲解如何在Ubuntu 22.04系统上使用四种可视化工具监控训练过程，让你的模型训练透明可控、调优有据。一、LLaMA Factory训练监控体系概览 LLaMA Factory通过模块化设计实现了全面的指标监控功能，主要覆盖训练稳定性、模型性能和资源利用三大维度。系统默认在src/llamafactory/train/sft/metric.py中实现基础评估逻辑，同时支持通过配置文件扩展自定义指标。核心监控指标包括： * 训练稳定性：损失值、梯度范数、学习率变化 * 模型性能：准确率、困惑度、ROUGE分数 * 文本质量：生成内容的流畅性和相关性 * 资源利用：GPU内存占用、训练速度

本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）

Kimi K2 是 Moonshot AI 于2025年7月11日发布的高性能多专家语言模型（MoE），支持最大 128K 上下文，激活参数规模为 32B，具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来，许多开发者希望将其部署在本地，以获得更高的私密性和灵活性。本文将详细介绍三种主流本地部署路径，并提供完整的配置步骤和使用建议。 📦 准备工作（通用部分）在进行部署前，请准备如下环境与资源： ✅ 最低硬件配置建议：项目要求存储空间≥ 250 GB（用于量化模型，若使用 FP8 请预留 1 TB）内存≥ 128 GB RAM（越大越流畅）GPU≥ 24 GB 显存，推荐多卡（如 2×A100、H100）操作系统Linux（Ubuntu 推荐）

Whisper.Unity终极指南：在Unity中轻松实现本地语音转文字

Whisper.Unity终极指南：在Unity中轻松实现本地语音转文字【免费下载链接】whisper.unityRunning speech to text model (whisper.cpp) in Unity3d on your local machine. 项目地址: https://gitcode.com/gh_mirrors/wh/whisper.unity 想要在Unity项目中添加语音识别功能，却担心复杂的配置和昂贵的云端服务费用？🤔 Whisper.Unity正是你需要的解决方案！这个强大的开源项目将OpenAI的Whisper语音识别模型完美集成到Unity3D环境中，让你轻松实现完全离线的语音转文字功能。 🎯 为什么选择Whisper.Unity？零成本部署 💰 - 完全免费开源，无需支付任何服务费用隐私安全保障 🔒 - 所有语音处理都在本地完成，保护用户数据安全多语言支持 🌍 - 支持约60种语言识别和跨语言翻译跨平台兼容 📱 - 支持Windows、macOS、