ComfyUI：重新定义AI绘画工作流的节点式创作引擎

优质文章学习记录

06 Apr 2026 — 14 min read

当Stable Diffusion（SD）在2022年引爆AI绘画革命时，大多数用户依赖的是WebUI这类“傻瓜式”界面——点击按钮即可生成图像，但灵活性被严重束缚。2023年，ComfyUI的出现彻底改变了这一局面：它将AI绘画拆解为可自由组合的“节点”，让用户像搭积木一样构建从文本到图像的完整逻辑链。这种“可视化编程”模式不仅解锁了SD底层功能的全部潜力，更催生了从图像修复到风格迁移的无限创作可能。本文将系统剖析ComfyUI的核心架构、节点生态、高级工作流设计及实战案例，帮助你从“按钮使用者”进化为“AI绘画工程师”。

一、ComfyUI核心价值：从“黑箱操作”到“全链路掌控”

1.1 为什么选择ComfyUI？

与WebUI（如Automatic1111）的“一键生成”不同，ComfyUI的本质是可视化工作流引擎。其核心优势体现在三个维度：

对比维度	WebUI（Automatic1111）	ComfyUI
操作逻辑	表单填写式，功能模块化	节点连接式，逻辑可视化
参数控制粒度	预设参数为主，高级功能隐藏	全链路参数暴露，支持细粒度调节
扩展能力	依赖插件，兼容性受限	原生支持自定义节点，生态开放
资源效率	内存占用高，多任务切换卡顿	按需加载节点，显存利用更高效
学习曲线	低（1小时上手）	中高（需理解SD核心原理）

表1：ComfyUI与主流WebUI的核心差异

关键突破：ComfyUI将SD的潜在扩散模型（Latent Diffusion）拆解为可干预的中间步骤。例如，你可以在文本编码器（CLIP）生成嵌入向量后手动修改特征，或在采样过程中插入自定义噪声模式，甚至将多个模型的中间结果交叉融合——这些在WebUI中几乎不可能实现。

1.2 核心应用场景

专业创作：影视概念设计、游戏美术资产生成（支持精确控制角色比例、场景光影）；
学术研究：扩散模型中间过程分析、新采样算法测试；
工业级批量处理：电商商品图生成、老照片修复流水线；
教育学习：直观理解SD的“文本→嵌入→潜空间→图像”完整流程。

二、ComfyUI架构解析：节点、数据流与工作流

2.1 核心概念：节点（Node）与连接（Link）

ComfyUI的最小功能单元是节点，每个节点代表一个独立操作（如加载模型、处理文本、执行采样）。节点之间通过连接传递数据，形成有向无环图（DAG）结构。

节点三要素：

输入端口（Input）：接收上游节点输出的数据（如模型权重、图像张量）；
参数面板（Parameters）：可调节的配置项（如采样步数、CFG值）；
输出端口（Output）：向下游节点传递处理结果（如潜空间特征、最终图像）。

![ComfyUI节点结构示意图]
图1：典型节点结构（以“KSampler”采样节点为例，包含模型输入、种子、步数等参数，输出潜空间图像）

2.2 工作流基础：从“文生图”看数据流动

以最简单的“文本生成图像”工作流为例，其节点链如下：

图2：基础文生图工作流（mermaid流程图）

数据流向解析：

文本编码：Text Prompt节点输入“a cat wearing a hat”，经CLIP Text Encode转换为768维嵌入向量；
模型加载：Checkpoint Loader加载SD基础模型（如v1-5-pruned-emaonly.safetensors）；
潜空间采样：KSampler接收模型、文本嵌入和初始潜空间图像（Empty Latent Image），通过扩散过程生成新的潜空间特征；
图像解码：VAEDecode将潜空间特征转换为RGB图像；
保存输出：Save Image节点将结果保存到本地。

三、环境搭建与核心配置

3.1 安装步骤（Windows/macOS/Linux通用）

ComfyUI的安装本质是Python环境配置+模型下载，步骤如下：

基础环境

# 克隆仓库 git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI # 创建虚拟环境（推荐） python -m venv venv source venv/bin/activate # Linux/macOS venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt

模型准备
将SD模型（.safetensors或.ckpt格式）放入ComfyUI/models/checkpoints/，推荐基础模型：
- Stable Diffusion v1.5（通用）
- RealVisXL V4.0（写实风格）
- MeinaMix（动漫风格）
启动程序

python main.py # 默认端口8188，浏览器访问http://localhost:8188

3.2 关键配置优化

显存管理：若显卡显存＜8GB，在main.py中添加--lowvram参数；
多显卡支持：添加--multi-gpu实现模型拆分加载；
自定义节点：将第三方节点（如ComfyUI-Manager、Impact Pack）放入ComfyUI/custom_nodes/，重启程序即可加载。

四、核心节点详解：从基础到高级

ComfyUI的节点生态已超过500种，按功能可分为基础节点（官方提供）和扩展节点（社区开发）。以下是高频使用的核心节点解析：

4.1 模型加载节点

节点名称	功能	关键参数
Checkpoint Loader	加载完整SD模型（含UNet/CLIP/VAE）	ckpt_name（模型文件名）
VAELoader	单独加载VAE模型（用于解码/编码）	vae_name（VAE文件名）
CLIPLoader	单独加载CLIP文本编码器	clip_name（CLIP模型文件名）
ControlNetLoader	加载ControlNet模型	control_net_name（ControlNet文件名）

实战技巧：当需要更换风格但保持主体结构时，可组合使用“主模型+独立VAE”（如用RealVisXL模型搭配Anything V3的VAE优化动漫风格）。

4.2 采样与生成节点

4.2.1 KSampler（核心采样节点）

SD的核心扩散过程由KSampler节点实现，其参数直接影响图像质量和生成速度：

参数	作用	推荐值
model	扩散模型（通常来自Checkpoint Loader）	-
positive/negative	正向/负向文本嵌入（来自CLIP Text Encode）	-
latent_image	初始潜空间图像（来自Empty Latent Image或图像编码）	-
seed	随机种子（决定生成内容的随机性，-1表示随机）	12345（固定）/ -1（随机）
steps	采样步数（步数越多细节越丰富，但耗时增加）	20-30（平衡速度与质量）
cfg	分类器自由引导（值越高越贴近Prompt，但可能过饱和）	7-12
sampler_name	采样算法（影响收敛速度和图像风格）	Euler a（艺术化）/ DPM++ 2M Karras（写实）
scheduler	调度器（控制噪声消除节奏）	Automatic

代码示例（KSampler节点的JSON表示，可直接导入ComfyUI）：

{ "nodes": [ { "id": 4, "type": "KSampler", "pos": [600, 300], "inputs": { "model": [3, 0], "positive": [2, 0], "negative": [2, 1], "latent_image": [5, 0], "seed": 12345, "steps": 25, "cfg": 8.0, "sampler_name": "euler_a", "scheduler": "normal" } } ] }

4.2.2 Empty Latent Image（潜空间初始化）

生成指定尺寸的空白潜空间图像，参数width和height需为64的倍数（SD潜空间默认下采样8倍）。例如：

生成512x512图像 → 潜空间尺寸64x64（512/8=64）；
生成1024x768图像 → 潜空间尺寸128x96（1024/8=128，768/8=96）。

4.3 文本处理节点

4.3.1 CLIP Text Encode（文本编码）

将自然语言转换为模型可理解的嵌入向量，支持权重调整（通过(word:weight)语法）和区域提示（通过[word:start:end]控制时间步影响）。

Prompt示例：

(masterpiece:1.2), (photorealistic:1.1), a girl with (blonde hair:1.3), wearing a red dress, detailed face, soft lighting, (depth of field:0.8) Negative prompt: (low quality:1.4), (blurry:1.2), extra fingers, missing fingers

注：权重＞1增强特征，＜1减弱特征，负向提示词（Negative prompt）需通过CLIP Text Encode的第二个输出端口连接到KSampler。

4.3.2 Prompt S/R（文本替换）

批量替换Prompt中的关键词，适合快速测试不同风格。例如：

原Prompt：a cat wearing a {hat}
替换规则：hat → crown, sunglasses, top hat
输出：3个不同Prompt，分别生成戴皇冠、太阳镜、高礼帽的猫。

4.4 图像操作节点

4.4.1 VAEDecode/VAEncode（图像编解码）

VAEDecode：将潜空间特征（Latent）转换为RGB图像；
VAEncode：将RGB图像压缩为潜空间特征（用于图像修复、风格迁移等）。

应用场景：修改生成图像的局部区域后，通过VAEncode重新编码为潜空间特征，再送入KSampler进行二次扩散优化。

4.4.2 ImageScale（图像缩放）

支持多种缩放算法（如Lanczos、Nearest），用于调整输入图像尺寸。注意：缩放后需通过VAEncode转换为潜空间特征才能进入采样流程。

五、高级工作流设计：从基础到工业级

5.1 条件控制：ControlNet工作流

ControlNet通过额外的条件输入（如边缘检测、深度图）约束生成结果，是实现“精准构图”的核心工具。以下是“边缘检测控制角色姿势”的工作流：

图3：ControlNet边缘控制工作流

关键节点配置：

Canny Edge Detection：low_threshold=100，high_threshold=200（控制边缘检测敏感度）；
ControlNetLoader：选择control_v11p_sd15_canny模型；
KSampler：cfg=7，steps=30，确保控制条件权重（通常默认即可）。

5.2 图像修复：人脸优化与背景替换

针对生成图像中的人脸模糊问题，可设计“人脸修复+背景替换”流水线：

人脸检测与裁剪：使用FaceDetector节点定位人脸区域；
高分辨率修复：将人脸区域送入KSampler，使用RealVisXL等写实模型优化细节；
背景生成：单独生成新背景图像，通过ImageComposite节点与修复后的人脸合成。

工作流代码片段（JSON）：

{ "nodes": [ { "id": 10, "type": "FaceDetector", "inputs": {"image": [9, 0]}, // 输入原始图像 "outputs": {"face": [11, 0]} // 输出裁剪后的人脸区域 }, { "id": 11, "type": "KSampler", "inputs": { "model": [12, 0], // 高分辨率人脸模型 "positive": [13, 0], // 人脸优化Prompt："detailed eyes, sharp focus, 8k" "latent_image": [14, 0], // 人脸区域的潜空间编码 "steps": 40, "cfg": 6.5 } } ] }

5.3 批量生成与自动化：API与脚本集成

ComfyUI支持通过Python API或命令行调用工作流，实现批量生成。例如，批量生成100张不同姿势的产品图：

import requests import json # 加载工作流JSON with open("product_workflow.json", "r") as f: workflow = json.load(f) # 修改Prompt和种子，批量生成 for i in range(100): workflow["nodes"][0]["inputs"]["text"] = f"product photo, angle {i%8}, white background" workflow["nodes"][4]["inputs"]["seed"] = 12345 + i # 不同种子 # 发送请求到ComfyUI后端 response = requests.post( "http://localhost:8188/prompt", json={"prompt": workflow} ) # 保存结果 with open(f"output/product_{i}.png", "wb") as f: f.write(response.content)

六、Prompt工程：从“描述”到“精确控制”

6.1 Prompt结构优化

高效Prompt遵循“权重金字塔”结构：核心主体（高权重）→ 细节特征（中权重）→ 风格与氛围（低权重）。

示例（写实人像）：

(masterpiece:1.3), (photorealistic:1.2), (ultra-detailed:1.1), a 25-year-old woman, (asian:0.9), (long black hair:1.2), (wearing a white shirt:1.0), (smile:0.8), (soft lighting:0.9), (depth of field:0.7), (8k resolution:1.0) Negative prompt: (low quality:1.4), (blurry:1.2), (distorted face:1.3), (extra limbs:1.2)

6.2 风格迁移Prompt模板

风格类型	核心关键词
写实摄影	photorealistic, 8k, DSLR, soft lighting, depth of field, Sony A7 III
赛博朋克	cyberpunk, neon lights, rain, dystopian city, (glowing:1.2), futuristic
水墨国画	ink painting, Chinese traditional, wash painting, minimalist, black and white
像素艺术	pixel art, 8-bit, retro game, (vibrant colors:1.1), isometric

跨风格混合：通过(style1:weight)+(style2:weight)实现融合，如(cyberpunk:0.7)+(ink painting:0.3)生成“水墨赛博”风格。

6.3 负面提示词（Negative Prompt）清单

负面提示词用于抑制不想要的特征，以下是通用负面清单（可直接复制使用）：

(low quality, worst quality:1.4), (bad anatomy), (inaccurate limb:1.2), bad composition, inaccurate eyes, extra digit, fewer digits, (extra arms:1.2), (blurry:1.3), (watermark:1.2), (text:1.2), (signature:1.2)

七、性能优化与资源管理

7.1 显存占用优化

技巧	效果	适用场景
使用--lowvram启动参数	显存占用降低40%，速度略降10%	4-8GB显存显卡
拆分模型到CPU和GPU	仅UNet在GPU，其他组件在CPU，显存降30%	8-12GB显存，需快速切换模型
降低图像分辨率	从1024x1024降为768x768，显存降50%	非细节要求场景

7.2 生成速度提升

选择高效采样器：DPM++ 2M Karras（20步≈Euler a 30步质量）；
启用xFormers：安装xFormers库（pip install xformers），采样速度提升30%；
批量生成：一次生成4张图像比单张生成4次快25%（利用GPU并行计算）。

八、实战案例：从概念到落地

8.1 案例1：游戏角色设计

目标：生成3种不同职业的游戏角色（战士/法师/刺客），保持统一艺术风格。

工作流设计：

使用Prompt S/R节点批量替换职业关键词；
通过ControlNet OpenPose控制角色姿势；
统一使用MeinaMix动漫模型+AbyssOrangeMix VAE。

Prompt模板：

(masterpiece:1.3), anime style, {warrior/mage/assassin}, full body, detailed armor/robe/cloak, dynamic pose, fantasy world background Negative prompt: (low quality:1.4), (blurry:1.2)

生成结果：3个角色均保持一致的动漫风格，职业特征（如战士的重型盔甲、法师的法杖）清晰区分。

8.2 案例2：产品广告图生成

目标：生成10张不同角度的蓝牙耳机广告图，白底背景，突出产品细节。