本地部署 Kimi K2 全指南(llama.cpp、vLLM、Docker 三法)

本地部署 Kimi K2 全指南(llama.cpp、vLLM、Docker 三法)

Kimi K2 是 Moonshot AI 于2025年7月11日发布的高性能多专家语言模型(MoE),支持最大 128K 上下文,激活参数规模为 32B,具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来,许多开发者希望将其部署在本地,以获得更高的私密性和灵活性。

本文将详细介绍三种主流本地部署路径,并提供完整的配置步骤和使用建议。


📦 准备工作(通用部分)

在进行部署前,请准备如下环境与资源:

✅ 最低硬件配置建议:

项目要求
存储空间≥ 250 GB(用于量化模型,若使用 FP8 请预留 1 TB)
内存≥ 128 GB RAM(越大越流畅)
GPU≥ 24 GB 显存,推荐多卡(如 2×A100、H100)
操作系统Linux(Ubuntu 推荐),或支持 CUDA 的 WSL2 环境

✅ Python 与工具环境

sudoapt update &&sudoaptinstall -y git cmake build-essential curl python3 -m pip install --upgrade pip 

✨ 方法一:使用 llama.cpp 本地部署(支持量化,低资源适配)

适合硬件资源中等,尤其是显存不足但 CPU 足够的开发者。支持 GGUF 格式的量化模型,非常适合本地离线使用。

🔧 步骤 1:获取模型(GGUF 格式)

from huggingface_hub import snapshot_download snapshot_download( repo_id="unsloth/Kimi-K2-Instruct-GGUF", local_dir="models/Kimi-K2-Instruct"

Read more

Web To App (web网页一键打包成android Apk文件)

引言 随着公司业务的快速发展,我们计划推出一款面向移动端用户的应用。然而,当前开发团队主要由 Web 前端工程师组成,缺乏原生 Android 开发经验。在完成 Web 版本的业务系统后,产品团队提出了一个关键需求:希望将现有的 Web 网站“安装”到用户的 Android 手机上,以提供类似原生 App 的使用体验。 面对这一需求,我主动承接了“将 Web 应用打包为 Android APK”的任务,并着手寻找一种对 Web 团队友好、低门槛且可自动化的实现方案。 现状与挑战 传统上,将 Web 内容封装为 Android 应用(通常称为“Web App 套壳”)需要搭建完整的 Android 开发环境。

FireRed-OCR Studio实战教程:从纸质招标文件到可编辑Markdown全过程

FireRed-OCR Studio实战教程:从纸质招标文件到可编辑Markdown全过程 1. 引言:告别繁琐的文档录入 你有没有遇到过这样的场景?一份几十页的纸质招标文件需要整理成电子版,里面有复杂的表格、密密麻麻的条款、还有各种数学公式。手动录入?光是想想就头疼。复制粘贴?PDF里的表格格式全乱套了。这就是为什么我们需要专业的文档解析工具。 今天我要介绍的 FireRed-OCR Studio,就是专门解决这类问题的利器。它不是一个简单的文字识别工具,而是一个能理解文档结构、还原表格布局、甚至能处理数学公式的智能解析系统。最厉害的是,它能直接把扫描件或图片转换成结构清晰的 Markdown 格式,让你能直接编辑、复制、重用。 这篇文章,我会手把手带你走完整个流程——从上传一份纸质招标文件的照片,到获得一份可以直接编辑的 Markdown 文档。整个过程,你不需要懂复杂的编程,只需要跟着步骤操作就行。 2. 准备工作:快速部署你的文档解析工作站 2.1 环境要求 在开始之前,我们先看看需要准备什么。其实要求很简单: * 硬件方面:

【昇腾】单张96G Atlas 300I Duo推理卡MindIE+WebUI方式跑32B大语言模型_20250818

【昇腾】单张96G Atlas 300I Duo推理卡MindIE+WebUI方式跑32B大语言模型_20250818

一、Atlas 300I Duo推理卡相关安装步骤 由于显存的瓶颈,48G的Atlas 300I Duo推理卡是没办法跑得起来DeepSeek-R1-Distill-Qwen-32B大语言模型的,这里换了一张96G版本的Atlas 300I Duo推理卡来跑,32B大语言模组除了对显存有要求,对服务器本身的内存条也有要求,在加载的过程中需要较大的内存,这里服务器的内存条内存为128GB 1.1 服务器系统与内核说明 服务器系统版本内核版本内存条内存S5000CKylin V104.19.90-89.11.v2401.ky10.aarch64128GB P.S.服务器安装好系统后先不要执行yum update -y更新,否则内核版本会从4.19.90-89.11升级到4.19.90-89.21,Atlas 300I Duo推理卡的driver包会安装失败 1.2 系统环境说明 本服务器IP地址:192.168.2.71 登录用户:

OpenClaw + 本地 Ollama:未来的个人 AI 助手实战教程

OpenClaw + 本地 Ollama:未来的个人 AI 助手实战教程 (参考 MacStories、Starry Hope、OpenClaw 社区 shoutouts) OpenClaw 不只是“一个模型工具”,它是一个让你的电脑真正“懂你、为你做事”的本地 AI 引擎。 一、什么是 OpenClaw?未来 AI 助手的入口 最近最火的个人 AI 助手就是 OpenClaw(前身是 Clawdbot / Moltbot)。它火爆的原因来自几类用户的体验: * 每天自动发送定制日程总结、结合日历/Notion/Todoist 等服务创建智能报告。([MacStories][1]) * 能结合已有工具(例如 RSS / cron)自动完成复杂自动化任务,无云、不订阅。