Midjourney MCP 集成指南

优质文章学习记录

10 Apr 2026 — 3 min read

在当今的人工智能发展中，MCP（模型上下文协议）由 Anthropic 推出，为 AI 模型（如 Claude、GPT 等）提供了通过标准化接口调用外部工具的能力。借助 AceData Cloud 提供的 Midjourney MCP 服务器，您可以在 Claude Desktop、VS Code、Cursor 等 AI 客户端中直接生成和编辑 AI 图像。

功能概述

Midjourney MCP 服务器提供以下核心功能：

图像生成（Imagine） — 从文本提示生成高质量图像
图像编辑 — 对生成的图像进行本地修改
图像转换 — 放大、缩小和移动现有图像
图像融合（Blend） — 将多张图像合并为一张新图像
参考图像生成 — 使用参考图像指导生成
图像描述（Describe） — 根据图像生成文本描述
提示翻译 — 将中文提示翻译为英文
种子检索 — 获取图像的种子值以便复现
视频生成 — 根据图像生成动态视频
任务查询 — 监控生成进度并获取结果

环境准备

在使用之前，您需要获取一个 AceData Cloud API Token：

注册或登录 AceData Cloud 平台
前往 Midjourney Imagine API 页面
点击“获取”以获得 API Token（首次申请者可获得免费积分）

安装配置

方法一：pip 安装（推荐）

pip install mcp-midjourney

方法二：从源代码安装

git clone https://github.com/AceDataCloud/MidjourneyMCP.git cd MidjourneyMCP pip install -e .

安装完成后，您可以使用 mcp-midjourney 命令启动服务。

在 Claude Desktop 中使用

编辑 Claude Desktop 配置文件：

macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
Windows: %APPDATA%\Claude\claude_desktop_config.json

添加以下配置：

{ "mcpServers": { "midjourney": { "command": "mcp-midjourney", "env": { "ACEDATACLOUD_API_TOKEN": "Your API Token" } } } }

如果使用 uvx（无需提前安装包）：

{ "mcpServers": { "midjourney": { "command": "uvx", "args": ["mcp-midjourney"], "env": { "ACEDATACLOUD_API_TOKEN": "Your API Token" } } } }

保存配置后，重启 Claude Desktop，以便在对话中使用与 Midjourney 相关的工具。

在 VS Code / Cursor 中使用

在项目根目录下创建一个 .vscode/mcp.json 文件：

{ "servers": { "midjourney": { "command": "mcp-midjourney", "env": { "ACEDATACLOUD_API_TOKEN": "Your API Token" } } } }

或者使用 uvx：

{ "servers": { "midjourney": { "command": "uvx", "args": ["mcp-midjourney"], "env": { "ACEDATACLOUD_API_TOKEN": "Your API Token" } } } }

可用工具列表

工具名称	描述
`midjourney_imagine`	从文本提示生成图像
`midjourney_edit`	编辑现有图像的局部区域
`midjourney_transform`	放大、缩小和移动现有图像
`midjourney_blend`	将多张图像合并为一张
`midjourney_with_reference`	使用参考图像生成图像
`midjourney_describe`	根据图像生成文本描述
`midjourney_translate`	将提示翻译为英文
`midjourney_get_seed`	检索图像的种子值
`midjourney_generate_video`	根据图像生成视频
`midjourney_extend_video`	扩展现有视频
`midjourney_get_task`	查询单个任务的状态
`midjourney_get_tasks_batch`	批量查询任务状态

使用示例

配置完成后，您可以在 AI 客户端中使用自然语言直接调用这些功能，例如：

“帮我生成一个赛博朋克风格的城市夜景”
“将这张图像的背景改为海边”
“将这四张图像融合成一张”
“描述这张图像的内容”
“从这张图像做一个视频”
“放大这张图像的第二个变体”

从算法原理到实战：揭秘AI绘画中ESRGAN与4X-UltraSharp的底层逻辑

从算法原理到实战：揭秘AI绘画中ESRGAN与4X-UltraSharp的底层逻辑当一张低分辨率的老照片在AI处理后突然展现出惊人的细节，或是模糊的动漫截图被还原成高清壁纸时，这种"魔法"背后往往站着两个重量级选手：ESRGAN和4X-UltraSharp。这两种算法已经成为AI绘画领域超分辨率处理的黄金标准，但它们究竟如何工作？为何能在众多竞争者中脱颖而出？ 1. 超分辨率技术的演进与核心挑战传统图像放大技术就像用放大镜观察报纸图片——像素被简单拉伸后，我们只能看到更大的马赛克。而现代超分辨率算法则如同一位训练有素的画师，能够根据对现实世界的理解，"想象"并补全那些本不存在的细节。超分辨率技术面临三大核心挑战： * 信息缺失问题：低分辨率图像丢失了高频细节 * 计算复杂度：需要平衡处理速度与质量 * 真实感保持：避免产生不自然的伪影和过度锐化早期解决方案如双三次插值算法，虽然计算速度快，但效果平平。下表对比了几种基础算法的表现：算法类型处理速度细节保留适用场景最近邻插值极快差实时预览双线性插值快一般普通放大Lanczos中等较好摄影后期传统CNN慢

AIGC 架构演进：为何企业级应用应首选 Banana Pro？从语义对齐到 OCR 级文字渲染

【摘要】在企业 AIGC 落地过程中，Midjourney 缺乏官方 API 且并发受限，Stable Diffusion 部署维护成本过高。本文将深度解析新兴的 Banana Pro 模型，探讨其在原生文字渲染（Native Text Rendering）和高语义遵循（Semantic Adherence）方面的突破，并结合 XingjiabiAPI.org 的企业级通道，展示如何构建一套低成本（0.24元/张）、高可用的自动化视觉生产系统。一、为什么是 Banana Pro？模型能力的“降维打击” 在评估 API 选型时，我们发现 Banana Pro 并非市面上普通的 SDXL 套壳，它在底层的

在VSCode中通过Copilot链接Figma直接生成完整产品

为了快速开发的需要，开发的范式也开始进行快速迭代调整。可以变为使用Figma (特别是他的Make产品，可以提示指导AI直接生成完整的产品原型)生成原型，然后通过设置Figma的MCP, 在开发工具（本文是在VS Code中使用Copilot）链接Figma，直接快速的生成Figma上的整套产品原型代码（对模型有要求，还是推荐Gemini-Flash, Claude Sonnet之上的模型），尽量一次到位。详细步骤记录如下，减少大家踩坑。 1. 获取Figma的API Token 在Figma的左上角用户处点击设置(Settings)，然后在安全Security下Personal Access Tokens下面生成token所用（注意根据自身要求设置权限，建议read都选上），注意token的最长有效期为90天。 2. 在VS Code Copilot中设置对应的MCP配置首先确保MCP发现的功能是开着的，在VS Code中打开设置(Ctrl+,或者Cmd+,), 输入chat.mcp确认Discovery是Enabled. 在extentions中输入@mc

Whisper时间戳技术终极指南：从入门到精通

Whisper时间戳技术终极指南：从入门到精通【免费下载链接】whisper-timestampedMultilingual Automatic Speech Recognition with word-level timestamps and confidence 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-timestamped 在当今数字化时代，语音时间戳技术正成为语音识别领域的重要突破。无论您是视频编辑者、语言学习者还是AI开发者，掌握这项技术都将极大提升您的工作效率。本文将带您深入了解Whisper增强版的核心价值，并提供完整的实战部署方案。技术价值定位：为什么需要精准时间戳？传统语音识别往往只能提供段落级别的时间信息，这在很多应用场景中远远不够。而 Whisper增强版通过先进的算法实现了单词级时间戳的精准定位，让语音处理达到了前所未有的精度水平。核心优势解析：技术差异化特点多语言兼容能力 - 支持包括中文、英文、法语等在内的多种语言识别，真正实现全球化应用。高精度时间定位 - 每个单词