论文阅读 PromptIR: Prompting for All-in-One Blind Image Restoration

优质文章学习记录

09 Apr 2026 — 6 min read

作者：Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang

机构：Mohamed bin Zayed University of AI, Linköping University

来源期刊：NeurIPS

发表时间：2023年

一、研究动机

1.研究目标

构建一个“All-in-One”盲图像复原网络，用单一模型、单次训练、无需先验地处理多种退化（去噪、去雨、去雾），并在各任务上均达到 SOTA 性能。

2.过去方法

        任务专用网络：DnCNN、MPRNet、Restormer 等，每类退化需独立模型，存储/部署成本高。
         早期 All-in-One：AirNet 用对比学习额外训练退化编码器，两阶段训练、参数量大，且对退化表征耦合严重。
        通用视觉 Transformer：SwinIR、Uformer 等需针对任务微调，没考虑过退化统一。

3.本文方法

核心思想：把“退化类型”当作可学习的轻量提示（prompt），在解码阶段动态注入网络，引导特征自适应恢复。
关键模块：
Prompt Generation Module (PGM)：根据输入特征实时生成退化条件提示。
Prompt Interaction Module (PIM)：将提示与图像特征做通道级拼接 + Transformer 融合，实现退化感知恢复。
整体为 4 级 U 型 Transformer，仅在解码器侧插入 3 个 Prompt Block，即插即用、端到端单阶段训练。

4.优势以及创新点

        ① 首个把提示学习引入低层视觉，用 <0.5% 的额外参数实现多任务统一。
        ② 无需退化先验或对比学习，训练友好。
        ③ 在 denoising/deraining/dehazing 三大任务 6 个公开测试集上，平均 PSNR 比 AirNet 高 0.86 dB，最高领先 2.64 dB；参数量仅 26 M，推理速度提升 1.7×。
        ④ Prompt Block 架构无关，可一键嵌入任意现有复原网络。

二、算法主要思想与原理详解

Prompt 架构整体就是在Restormer 的架构基础上在每层采样之间加上了一个Prompt Block模块。
整体流程
输入退化图 I ∈ R^(H×W×3)
→ 卷积提取浅层特征 F0
→ 4 级编码器（Transformer Block 数=[4,6,6,8]）下采样到 1/8 分辨率
→ 解码器逐级上采样，每两级间插入 1 个 Prompt Block（共 3 个）
→ 输出复原图 Î

3.Prompt Block 内部机制
        (1) PGM：动态生成提示
        Fl ∈ R^(Hi×Wi×C)
        → GAP → 向量 v ∈ R^C
        → 1×1 Conv 降维 → Softmax 得权重 w ∈ R^N（N=5 个 prompt components）
        → w 对可学习组件 Pc ∈ R^(N×H×W×C) 加权求和 → 输入条件提示 P

        (2) PIM：提示-特征交互
         通道拼接 → 送入标准 Transformer Block：
        – MDTA（Multi-Dconv Head Transposed Attention）
          在通道维计算自注意力，复杂度 O(C^2) 而非 O(HW^2)，适合高分辨率。
          输出 Y = Wp·V·Softmax(K·Q/α)+X
        – GDFN（Gated-Dconv Feed-Forward）
          两路 1×1+3×3 深度卷积，一路 GeLU 激活后逐元乘，增强非线性且抑制噪声。
        → 3×3 Conv 输出增强特征 F̂l

三、实验结果

数据集
训练：BSD400+WED（denoising）、Rain100L（deraining）、SOTS-indoor（dehazing）合并，共约 7.7 万张128×128块。
测试：
– BSD68、Urban100（denoising σ=15,25,50）
– Rain100L（deraining）
– SOTS-indoor（dehazing）
评价指标
PSNR (dB) 、SSIM

四.定性试验

单任务专用模型再对比：
去雾：PromptIR 31.31 dB，比 AirNet 高 8.13 dB，比 Restormer 高 0.44 dB。
去雨：37.04 dB，比 AirNet 高 2.13 dB。
去噪 σ=50：29.39 dB(Urban100)，比 AirNet 高 0.51 dB。

定量结果（All-in-One 单模型）

去雾场景，PromptIR 彻底去除远处雾幕，建筑边缘无伪影；AirNet 有残留灰色雾墙。
去雨场景，雨丝密度高时，PromptIR 无条纹残留，车牌文字清晰；AirNet 可见轻微雨痕。
去噪 σ=50，纹理细节（砖缝、窗户）保持完整，无过度平滑。
消融实验

无 Prompt Block：平均 PSNR 降 0.38 dB。固定 Prompt：再降 0.19 dB。 Prompt 放在编码器+解码器：性能反而下降 0.92 dB，说明“解码器单侧注入”最佳。未见噪声水平 σ=35：AirNet 仅 13.64 dB，PromptIR 21.03 dB，差距 7.4 dB，验证泛化能力。

五、结论

PromptIR 首次把提示学习引入图像复原，用极轻量插件实现“一个模型、三种退化、盲设置”下的新 SOTA。未来工作将：

把 Prompt Block 拓展到更多退化（模糊、低分辨率、混合失真）以逼近“通用复原大模型”
结合物理退化模型与对抗训练，进一步提升极端场景鲁棒性

AIGC工具助力2D游戏美术全流程

本文将介绍如何利用国内AIGC工具生成2D游戏开发所需的各种素材，从UI到动画，一站式解决你的游戏美术需求。为什么选择AIGC生成游戏素材？传统游戏美术制作需要投入大量时间和资金，而AIGC工具的出现彻底改变了这一局面。它让独立开发者和小团队也能获得高质量美术资源，大幅降低开发门槛和成本。国内主流AIGC工具推荐 1. 腾讯混元游戏视觉生成平台（腾讯）：专为游戏行业打造的工业级AIGC生产引擎，支持文生图、图生图、透明通道图生成，并能根据单张原画智能生成角色多视图及360°展示视频，大幅提升游戏美术资产制作效率 2. Holopix AI（广州市光绘科技有限公司）：针对游戏开发者优化的AI生图工具，支持线稿生成、局部重绘、相似图裂变（统一角色风格）、线稿提取及4K高清输出，生成的素材可直接用于Unity/UE引擎。 3. 即梦AI（字节跳动火山引擎/剪映旗下）：支持文生图、视频及动态内容生成，内置游戏场景模板（如RPG城镇、MOBA野区），擅长国风场景和2D剧情插画，每日提供免费积分。 4. 可灵AI（快手）：核心能力为静态图转动态视频，擅长角色技能演示、场景

AIGC--如何在内容创作中合理使用AI生成工具？

AI生成内容（AIGC）的工具在内容创作中扮演着越来越重要的角色。合理使用这些工具，不仅能够帮助创作者提高效率，还能激发创意、优化流程。然而，使用不当可能会导致内容缺乏深度、出现重复或难以表达个性。因此，本文将深入探讨如何在创作流程中合理使用AI生成工具，以便从多个角度对内容进行个性化和定制化，并分享大量示例代码，帮助创作者更好地利用AIGC工具。目录 1. AI生成工具的选择与优势 2. 创作流程中的合理使用方式 3. 内容定制与个性化技巧 4. 生成内容的实际代码示例 5. AI生成内容的风险与解决方法 6. 未来展望：AI在内容创作中的前景 1. AI生成工具的选择与优势 1.1 工具类型与选择 AI生成工具可以大致分为文本生成、图像生成、多模态生成等几类。针对不同内容需求，选择合适的AI工具尤为重要。例如： * 文本生成工具（如GPT-4）：用于文章、博客、文案、脚本等。 * 图像生成工具（如DALL-E、Midjourney）：用于生成插图、

Faster-Whisper终极实战指南：从零掌握高效语音识别技术

Faster-Whisper终极实战指南：从零掌握高效语音识别技术【免费下载链接】faster-whisper 项目地址: https://gitcode.com/gh_mirrors/fas/faster-whisper 还在为语音转文字的速度和准确率而困扰吗？Faster-Whisper作为OpenAI Whisper的优化版本，通过先进的CTranslate2推理引擎实现了突破性的性能提升。这款开源工具不仅保持了原有的高精度识别能力，更在速度上实现了质的飞跃，让语音识别技术真正走向实用化。 🎯 基础概念快速入门什么是Faster-Whisper？ Faster-Whisper是一个基于Transformer架构的语音识别模型，专门针对实际应用场景进行了深度优化。它继承了Whisper模型的多语言识别、自动语言检测等核心能力，同时在推理效率上实现了显著提升。核心优势解析极速推理能力 - 相比原版模型，处理速度提升高达4倍内存使用优化 - GPU内存占用减少60%，支持更多并发任务智能语音处理 - 内置语音活动检测模块，自动过滤静音片段多场景适配 -

Llama.cpp

Llama.cpp * 1. Llama.cpp 概述 * 主要特性 * 2. Python 绑定 API * 2.1 安装和导入 * 2.2 核心类和方法 * 3. 模型加载和初始化 * 3.1 基础初始化 * 3.2 完整初始化参数 * 3.3 GPU支持配置 * 4. 文本生成 API * 4.1 基础文本生成 * 4.2 生成参数详解 * 4.3 流式生成 * 4.4 带参数的生成示例 * 5. 聊天对话 API * 5.1 基础聊天 * 5.