本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）

优质文章学习记录

07 Apr 2026 — 1 min read

Kimi K2 是 Moonshot AI 于2025年7月11日发布的高性能多专家语言模型（MoE），支持最大 128K 上下文，激活参数规模为 32B，具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来，许多开发者希望将其部署在本地，以获得更高的私密性和灵活性。

本文将详细介绍三种主流本地部署路径，并提供完整的配置步骤和使用建议。

📦 准备工作（通用部分）

在进行部署前，请准备如下环境与资源：

✅ 最低硬件配置建议：

项目	要求
存储空间	≥ 250 GB（用于量化模型，若使用 FP8 请预留 1 TB）
内存	≥ 128 GB RAM（越大越流畅）
GPU	≥ 24 GB 显存，推荐多卡（如 2×A100、H100）
操作系统	Linux（Ubuntu 推荐），或支持 CUDA 的 WSL2 环境

✅ Python 与工具环境

sudoapt update &&sudoaptinstall -y git cmake build-essential curl python3 -m pip install --upgrade pip

✨ 方法一：使用 llama.cpp 本地部署（支持量化，低资源适配）

适合硬件资源中等，尤其是显存不足但 CPU 足够的开发者。支持 GGUF 格式的量化模型，非常适合本地离线使用。

🔧 步骤 1：获取模型（GGUF 格式）

from huggingface_hub import snapshot_download snapshot_download( repo_id="unsloth/Kimi-K2-Instruct-GGUF", local_dir="models/Kimi-K2-Instruct"

Read more

Web To App (web网页一键打包成android Apk文件)

引言随着公司业务的快速发展，我们计划推出一款面向移动端用户的应用。然而，当前开发团队主要由 Web 前端工程师组成，缺乏原生 Android 开发经验。在完成 Web 版本的业务系统后，产品团队提出了一个关键需求：希望将现有的 Web 网站“安装”到用户的 Android 手机上，以提供类似原生 App 的使用体验。面对这一需求，我主动承接了“将 Web 应用打包为 Android APK”的任务，并着手寻找一种对 Web 团队友好、低门槛且可自动化的实现方案。现状与挑战传统上，将 Web 内容封装为 Android 应用（通常称为“Web App 套壳”）需要搭建完整的 Android 开发环境。

FireRed-OCR Studio实战教程：从纸质招标文件到可编辑Markdown全过程

FireRed-OCR Studio实战教程：从纸质招标文件到可编辑Markdown全过程 1. 引言：告别繁琐的文档录入你有没有遇到过这样的场景？一份几十页的纸质招标文件需要整理成电子版，里面有复杂的表格、密密麻麻的条款、还有各种数学公式。手动录入？光是想想就头疼。复制粘贴？PDF里的表格格式全乱套了。这就是为什么我们需要专业的文档解析工具。今天我要介绍的 FireRed-OCR Studio，就是专门解决这类问题的利器。它不是一个简单的文字识别工具，而是一个能理解文档结构、还原表格布局、甚至能处理数学公式的智能解析系统。最厉害的是，它能直接把扫描件或图片转换成结构清晰的 Markdown 格式，让你能直接编辑、复制、重用。这篇文章，我会手把手带你走完整个流程——从上传一份纸质招标文件的照片，到获得一份可以直接编辑的 Markdown 文档。整个过程，你不需要懂复杂的编程，只需要跟着步骤操作就行。 2. 准备工作：快速部署你的文档解析工作站 2.1 环境要求在开始之前，我们先看看需要准备什么。其实要求很简单： * 硬件方面：

【昇腾】单张96G Atlas 300I Duo推理卡MindIE+WebUI方式跑32B大语言模型_20250818

【昇腾】单张96G Atlas 300I Duo推理卡MindIE+WebUI方式跑32B大语言模型_20250818

一、Atlas 300I Duo推理卡相关安装步骤由于显存的瓶颈，48G的Atlas 300I Duo推理卡是没办法跑得起来DeepSeek-R1-Distill-Qwen-32B大语言模型的，这里换了一张96G版本的Atlas 300I Duo推理卡来跑，32B大语言模组除了对显存有要求，对服务器本身的内存条也有要求，在加载的过程中需要较大的内存，这里服务器的内存条内存为128GB 1.1 服务器系统与内核说明服务器系统版本内核版本内存条内存S5000CKylin V104.19.90-89.11.v2401.ky10.aarch64128GB P.S.服务器安装好系统后先不要执行yum update -y更新，否则内核版本会从4.19.90-89.11升级到4.19.90-89.21，Atlas 300I Duo推理卡的driver包会安装失败 1.2 系统环境说明本服务器IP地址：192.168.2.71 登录用户：

OpenClaw + 本地 Ollama：未来的个人 AI 助手实战教程

OpenClaw + 本地 Ollama：未来的个人 AI 助手实战教程（参考 MacStories、Starry Hope、OpenClaw 社区 shoutouts） OpenClaw 不只是“一个模型工具”，它是一个让你的电脑真正“懂你、为你做事”的本地 AI 引擎。一、什么是 OpenClaw？未来 AI 助手的入口最近最火的个人 AI 助手就是 OpenClaw（前身是 Clawdbot / Moltbot）。它火爆的原因来自几类用户的体验： * 每天自动发送定制日程总结、结合日历/Notion/Todoist 等服务创建智能报告。([MacStories][1]) * 能结合已有工具（例如 RSS / cron）自动完成复杂自动化任务，无云、不订阅。