简单易学的分离式部署小米智能家居Miloco方法

一、安装环境

  • Windows用户:安装WSL2以及Docker
  • macOS/Linux用户:安装Docker
    此处不再赘述,网上随便找个教程即可。特别地,对于Windows用户来说,你需要将 WSL2 的网络模式设置为 Mirrored。

二、使用Docker部署Miloco后端

以下均为bash命令。请Windows用户进入WSL2 / Linux、macOS用户进入终端操作:

mkdir miloco cd milico vi docker-compose.yml 

以下是compose的内容(不会使用vi的同学可以傻瓜式操作:先按i,再使用粘贴功能,然后按冒号,输入wq然后回车,记得关闭输入法):

services:backend:container_name: miloco-backend image: ghcr.nju.edu.cn/xiaomi/miloco-backend:latest network_mode: host expose:- ${BACKEND_PORT:-8000}environment:- BACKEND_HOST=${BACKEND_HOST:-0.0.0.0}- BACKEND_PORT=${BACKEND_PORT:-8000}- AI_ENGINE_HOST=${AI_ENGINE_HOST:-0.0.0.0}- AI_ENGINE_PORT=${AI_ENGINE_PORT:-8001}- BACKEND_LOG_LEVEL=${BACKEND_LOG_LEVEL:-info}- TZ=${TZ:-Asia/Shanghai}volumes:- ./data:/app/miloco_server/.temp - ./log/backend:/app/miloco_server/.temp/log restart: unless-stopped healthcheck:disable:true

再写个.env

vi .env 

以下是.env的内容:

TZ=Asia/Shanghai BACKEND_HOST=0.0.0.0 BACKEND_PORT=8000 BACKEND_LOG_LEVER=info AI_ENGINE_HOST=0.0.0.0 AI_ENGINE_PORT=8001 AI_ENGINE_LOG_LEVER=info 

继续执行命令:

mkdir -p data mkdir -p log/backend docker compose up -d 

静待下载镜像以及运行即可。

三、部署视觉大模型

对于小白用户(含非专业的AMD用户),此处建议使用LM StudioOllama来部署GGUF版的VL模型。
如果你有一张高性能NVIDIA显卡(RTX3090、RTX4090、RTX5090等显存>=24G的),想要更加专业稳定的服务,那么建议使用vLLMSGLang进行生产级服务部署。
此处为了照顾Windows及macOS小白用户,以简单易用的LM Studio举例。

下载LM Studio并安装

https://lmstudio.ai/

设置及下载模型

点击界面最右下角的设置图标,

  • App Settings-General-Language-简体中文
  • App Settings-Developer-启用本地 LLM 服务

检查环境安装情况

还是在设置页-Runtime

NVIDIA用户
  • Vulkan llama.cpp
  • CUDA llama.cpp
  • CPU llama.cpp
  • CUDA 12 llama.cpp
  • Harmony
AMD用户
  • Vulkan llama.cpp
  • ROCm llama.cpp
  • CPU llama.cpp
  • Harmony
苹果用户
  • Vulkan llama.cpp
  • Metal llama.cpp
  • MLX llama.cpp
  • CPU llama.cpp
  • Harmony

下载模型

Model Search-搜索框中输入:xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF
点击右下角Download即可

运行模型并提供API服务

  • 下载完成后点击页面左侧的“开发者”(一个绿色终端图标,位于对话图标下方)
  • 点击页面顶部加载模型
  • 你应该能够看到xiaomi-mimo-vl-miloco-7bREADY状态。
  • 页面顶部有一个Status: Stopped,点击开关,切换到Running
  • 点击Server Settings,打开“在网络中提供服务”。
  • 你将得到一个局域网地址,显示在右侧的Reachable at中,如:http://192.168.50.210:1234。复制它。

四、与Miloco对接

假设你的Docker宿主机IP为192.168.50.123,那么就访问https://192.168.50.123:8000/。首次设置会让你登录账号,登录后有一个callback地址,也填写192.168.50.123:8000

对接VL模型

点击模型管理-云端模型-添加模型:
Base URL输入http://192.168.50.210:1234/v1
API Key随便填
模型ID填xiaomi-mimo-vl-miloco-7b,再点击一下以添加。
完成后在上方“视觉理解大模型”中选择云端:xiaomi-mimo-vl-miloco-7b

对接规划模型

对于许多用户来说,走到这一步的时候,想必你的显存/统一内存已经所剩无几了吧!让我们白嫖一下硅基流动的大模型。

  • 访问https://cloud.siliconflow.cn/,注册并登录。
  • 点击左侧的API密钥,生成一个,复制出来(sk开头的)
  • 还是添加云端模型:
    Base URL输入https://api.siliconflow.cn/v1
    API Key填刚才生成的
    模型ID选Qwen/Qwen3-8B
    完成后在上方“规划大模型”中选择云端:Qwen/Qwen3-8B

回到AI中心,开始你的Miloco之旅吧!

五、一点Tips

  • 对于规划模型,你可以尝试使用更强的大模型,它们调用工具更稳定,比如Kimi K2Minimax M2等。Qwen3-8B的训练时间较早且对齐略有问题,可能不能很好地稳定调用工具。这只是一个便宜的入门之选。
  • 对于VL模型,有条件的同学可以尝试部署全精度版本,使用vLLM提供服务,会获得更棒的体验。
  • 官方文档中推荐的安装方式只是多集成了一个AI Engine,本质上就是对llama.cpp的封装。分离式部署大模型服务更灵活。
  • 吐槽:我曾经想着提个pr来适配更多平台,但发现代码里硬编码了许多CUDA/nvidia相关的东西,蒜鸟蒜鸟。
  • 有疑问可以联系我:[email protected],不保证时效性。

Read more

展望 AIGC 前景:通义万相 2.1 与蓝耘智算平台共筑 AI 生产力高地

展望 AIGC 前景:通义万相 2.1 与蓝耘智算平台共筑 AI 生产力高地

引言 在 AI 视频生成领域不断创新突破的当下,通义万相 2.1这款开源的视频生成 AI 模型一经发布便引发了广泛关注。其表现十分亮眼,发布当日便强势登顶VBench排行榜,将Sora、Runway等行业内的知名强大对手甩在身后,彰显出不容小觑的强劲实力与巨大潜力。 通义万相 2.1模型具备诸多令人赞叹的特性。它所生成的视频分辨率达到了1080P,并且在视频时长方面没有任何限制。更为厉害的是,它能够精准地模拟自然动作,甚至还可以对物理规律进行高度还原,这些卓越的能力无疑为 AIGC 领域带来了前所未有的变革,堪称具有里程碑意义的重大突破。 借助蓝耘智算平台,用户可以便捷地对通义万相 2.1 模型进行部署,进而打造出属于自己的个性化 AI 视频生成工具。今天,我会带领大家深入了解通义万相 2.1的各项强大功能,同时也会详细分享怎样通过蓝耘智算平台快速上手,开启 AI 视频生成的奇妙之旅。 蓝耘智算平台:开启高性能计算新时代 1. 平台概览 蓝耘智算平台作为专为满足高性能计算需求精心打造的云计算平台,以强大计算力和灵活服务能力脱颖而出。其依托先进的基础设施,配备大规模GPU算力

如何在VS Code中安装GitHub Copilot进行AI编程

如何在VS Code中安装GitHub Copilot进行AI编程

本文教您轻松在VS Code中玩转GitHub Copilot:从安装认证到实战网页开发,5分钟解锁AI编程神器,还能自由切换模型、实时调试代码! 在Visual Studio Code中搭建GitHub Copilot编程环境需要经过几个关键步骤,以下是详细指南: 环境准备阶段 1. 安装最新版VS Code(当前版本≥1.85)官网下载地址:https://code.visualstudio.com/ 2. 拥有有效的GitHub账户(建议启用双重验证) 注册地址:https://github.com/ 3. 稳定的网络连接(Copilot需实时云端交互) 安装流程 1、安装VS Code后,选择”Use All features with Copilot for free”。如果已经安装VS Code,可以打开VS Code扩展市场(

JetBrains 内的 GitHub Copilot Agent Mode + MCP:从配置到实战

JetBrains 内的 GitHub Copilot Agent Mode + MCP:从配置到实战

1. 背景说明:Agent Mode 与 MCP 的意义 Agent Mode 是 GitHub Copilot 的新形态,它能理解自然语言指令,自动拆分任务,遍历项目文件,执行命令并修改代码,像一个“自主项目助手”一样工作。 Model Context Protocol (MCP) 是一套用于 Copilot 调用外部工具的协议标准,让 Agent Mode 能访问终端、读写文件、检查代码等能力。 JetBrains 自 2025 年 5 月起已提供 Agent Mode + MCP 公测支持。最新版的插件已经是正式的非Preview版本。 2. JetBrains 中如何启用 Agent Mode (1)

亲测Meta-Llama-3-8B-Instruct:8K上下文对话体验分享

亲测Meta-Llama-3-8B-Instruct:8K上下文对话体验分享 你有没有试过和一个模型聊着聊着,它突然忘了前面说了什么?或者刚聊到关键处,它就卡在“上一句我提到了什么”上?这次我用一张RTX 3060显卡,完整跑通了Meta-Llama-3-8B-Instruct——不是跑个demo,是真正在open-webui里连续对话40轮、处理2700+ token的长文档摘要、边写Python边解释逻辑、还顺手把一段中文技术文档翻译成地道英文。它没断片,没乱序,也没把“用户说的第三点”记成“第二点”。 这不是参数堆出来的幻觉,而是80亿参数在vLLM加速下给出的稳定输出。更关键的是:它真的能在单卡消费级显卡上跑起来,不靠云服务,不靠API调用,所有推理都在本地完成。 下面这篇分享,没有PPT式的技术罗列,只有我真实用下来的观察、踩过的坑、验证过的边界,以及那些“原来还能这样用”的小发现。 1. 为什么选它?一张3060就能跑的“轻量全能选手” 很多人看到“Llama 3”第一反应是:又一个大模型?但Llama-3-8B-Instruct的定位很特别——它不是冲着GPT