论文阅读 PromptIR: Prompting for All-in-One Blind Image Restoration

论文阅读 PromptIR: Prompting for All-in-One Blind Image Restoration

作者:Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang

机构:Mohamed bin Zayed University of AI, Linköping University

来源期刊:NeurIPS

发表时间:2023年
 

一、研究动机

        1.研究目标


        构建一个“All-in-One”盲图像复原网络,用单一模型、单次训练、无需先验地处理多种退化(去噪、去雨、去雾),并在各任务上均达到 SOTA 性能。

        2.过去方法


        任务专用网络:DnCNN、MPRNet、Restormer 等,每类退化需独立模型,存储/部署成本高。
         早期 All-in-One:AirNet 用对比学习额外训练退化编码器,两阶段训练、参数量大,且对退化表征耦合严重。
        通用视觉 Transformer:SwinIR、Uformer 等需针对任务微调,没考虑过退化统一。

         3.本文方法      


        核心思想:把“退化类型”当作可学习的轻量提示(prompt),在解码阶段动态注入网络,引导特征自适应恢复。
关键模块:
        Prompt Generation Module (PGM):根据输入特征实时生成退化条件提示。
        Prompt Interaction Module (PIM):将提示与图像特征做通道级拼接 + Transformer 融合,实现退化感知恢复。
        整体为 4 级 U 型 Transformer,仅在解码器侧插入 3 个 Prompt Block,即插即用、端到端单阶段训练。

        4.优势以及创新点


        ① 首个把提示学习引入低层视觉,用 <0.5% 的额外参数实现多任务统一。
        ② 无需退化先验或对比学习,训练友好。
        ③ 在 denoising/deraining/dehazing 三大任务 6 个公开测试集上,平均 PSNR 比 AirNet 高 0.86 dB,最高领先 2.64 dB;参数量仅 26 M,推理速度提升 1.7×。
        ④ Prompt Block 架构无关,可一键嵌入任意现有复原网络。

二、算法主要思想与原理详解

PromptIR架构概述
  1. Prompt 架构整体就是在Restormer 的架构基础上在每层采样之间加上了一个Prompt Block模块。
  2. 整体流程
    输入退化图 I ∈ R^(H×W×3)
    → 卷积提取浅层特征 F0
    → 4 级编码器(Transformer Block 数=[4,6,6,8])下采样到 1/8 分辨率
    → 解码器逐级上采样,每两级间插入 1 个 Prompt Block(共 3 个)
    → 输出复原图 Î

        3.Prompt Block 内部机制
        (1) PGM:动态生成提示
        Fl ∈ R^(Hi×Wi×C)
        → GAP → 向量 v ∈ R^C
        → 1×1 Conv 降维 → Softmax 得权重 w ∈ R^N(N=5 个 prompt components)
        → w 对可学习组件 Pc ∈ R^(N×H×W×C) 加权求和 → 输入条件提示 P

        (2) PIM:提示-特征交互
           通道拼接 → 送入标准 Transformer Block:
        – MDTA(Multi-Dconv Head Transposed Attention)
          在通道维计算自注意力,复杂度 O(C^2) 而非 O(HW^2),适合高分辨率。
          输出 Y = Wp·V·Softmax(K·Q/α)+X
        – GDFN(Gated-Dconv Feed-Forward)
          两路 1×1+3×3 深度卷积,一路 GeLU 激活后逐元乘,增强非线性且抑制噪声。
        → 3×3 Conv 输出增强特征 F̂l

三、实验结果

  1. 数据集
  2. 训练:BSD400+WED(denoising)、Rain100L(deraining)、SOTS-indoor(dehazing)合并,共约 7.7 万张128×128块。
  3. 测试:
    – BSD68、Urban100(denoising σ=15,25,50)
    – Rain100L(deraining)
    – SOTS-indoor(dehazing)
  4. 评价指标
    PSNR (dB) 、SSIM 

四.定性试验​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​

去雨场景下的性能对比

单任务专用模型再对比:
 去雾:PromptIR 31.31 dB,比 AirNet 高 8.13 dB,比 Restormer 高 0.44 dB。
 去雨:37.04 dB,比 AirNet 高 2.13 dB。
 去噪 σ=50:29.39 dB(Urban100),比 AirNet 高 0.51 dB。 

去噪场景下的性能对比

定量结果(All-in-One 单模型)

全集成修复场景下的性能对比分析
去雾场景下的性能对比
图片去雨比较
图片去噪比较
  1.  去雾场景,PromptIR 彻底去除远处雾幕,建筑边缘无伪影;AirNet 有残留灰色雾墙。
     去雨场景,雨丝密度高时,PromptIR 无条纹残留,车牌文字清晰;AirNet 可见轻微雨痕。
     去噪 σ=50,纹理细节(砖缝、窗户)保持完整,无过度平滑。
  2. 消融实验
图片去雾比较
消融实验

        无 Prompt Block:平均 PSNR 降 0.38 dB。  固定 Prompt:再降 0.19 dB。 Prompt 放在编码器+解码器:性能反而下降 0.92 dB,说明“解码器单侧注入”最佳。  未见噪声水平 σ=35:AirNet 仅 13.64 dB,PromptIR 21.03 dB,差距 7.4 dB,验证泛化能力。

五、结论

PromptIR 首次把提示学习引入图像复原,用极轻量插件实现“一个模型、三种退化、盲设置”下的新 SOTA。未来工作将:

  1. 把 Prompt Block 拓展到更多退化(模糊、低分辨率、混合失真)以逼近“通用复原大模型”
  2. 结合物理退化模型与对抗训练,进一步提升极端场景鲁棒性

Read more

OCR增强与空间感知升级|Qwen3-VL-WEBUI在Dify中的实战应用

OCR增强与空间感知升级|Qwen3-VL-WEBUI在Dify中的实战应用 💡 获取更多AI镜像 想探索更多AI镜像和应用场景?访问 ZEEKLOG星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。 1. 引言:视觉智能的“低代码革命” 在企业数字化转型加速的今天,如何让AI真正“看懂世界”并快速落地到业务流程中,已成为技术团队的核心挑战。传统多模态系统开发周期长、依赖专业算法工程师、部署复杂——尤其在OCR识别、GUI理解、空间关系分析等任务中,往往需要定制化模型训练与大量工程适配。 而随着阿里通义千问发布 Qwen3-VL-WEBUI 镜像,这一局面正在被打破。该镜像内置了最新一代视觉语言模型 Qwen3-VL-4B-Instruct,不仅具备强大的图文理解能力,更在OCR鲁棒性、空间感知、GUI代理等方面实现全面升级。结合低代码平台 Dify,开发者无需编写任何后端代码,即可构建出具备“视觉认知+逻辑决策”能力的智能应用。 本文将深入解析 Qwen3-VL 的核心技术增强点,并通过实际案例展示其在 Dify

从0开始学AI审核:Qwen3Guard-Gen-WEB保姆级教程

从0开始学AI审核:Qwen3Guard-Gen-WEB保姆级教程 你是不是也遇到过这样的问题:刚上线一个AI对话功能,用户第一句话就问“怎么黑进公司内网”,系统却笑着给出了详细步骤?或者客服机器人被诱导生成歧视性言论,截图一发社交媒体,品牌当天就上热搜——不是因为技术多炫酷,而是因为缺了一道“安全守门人”。 这不是危言耸听。在真实业务场景中,90%以上的AI应用风险,都发生在“用户输入”和“模型输出”这两个最开放的接口上。而今天要带你亲手部署的 Qwen3Guard-Gen-WEB,就是阿里开源的那道专业级安全守门人:它不靠关键词堵截,不靠概率值糊弄,而是用生成式理解,像人类审核员一样读懂话外之音,再给出带解释的判断。 更关键的是——它已经打包成开箱即用的镜像,不需要你配环境、下模型、写API,连Linux命令都不用记全。本文将全程手把手,从点击创建实例开始,到网页里输入一句话立刻看到审核结果,每一步都截图级还原,零基础也能15分钟跑通。 1. 为什么选Qwen3Guard-Gen-WEB?它和普通过滤器有啥不一样? 先说结论:它不是“拦路石”,而是“安全翻译官”。 传统

Nanbeige 4.1-3B Streamlit WebUI实战教程:适配多模型Chat Template方案

Nanbeige 4.1-3B Streamlit WebUI实战教程:适配多模型Chat Template方案 1. 引言:从零打造一个专属的AI聊天室 如果你用过一些开源大模型,可能会发现一个痛点:官方提供的Web界面要么太简陋,要么配置复杂。今天,我们就来解决这个问题。 我将带你一步步搭建一个专为Nanbeige 4.1-3B模型设计的Web聊天界面。这不仅仅是一个界面,而是一个可以轻松适配其他模型的通用方案。整个项目只有一个Python文件,不需要懂前端框架,用纯Python就能做出媲美专业聊天应用的视觉效果。 想象一下,你可以在本地电脑上运行一个界面清爽、响应迅速的AI对话应用,还能根据不同的模型自动调整对话格式。这就是我们今天要实现的。 2. 项目核心亮点:为什么选择这个方案 在开始动手之前,我们先看看这个方案有哪些吸引人的地方。 2.1 极简现代的视觉设计 传统的Streamlit应用往往有固定的侧边栏和方方正正的布局,看起来比较呆板。我们这个方案通过CSS彻底改变了这一点。 * 聊天气泡布局:用户消息在右侧(天蓝色背景),AI回复在左侧(白色背景

svn的web管理后台服务svnWebUI

背景 用户需要使用web管理页面管理svn,根据网上的资料了解到国产开源的管理后台有两个,一个是svnadmin,另一个是svnwebui。对比功能和部署方式的不同,最后选择svnwebui,原因是部署方便,只需要部署jar包和java环境即可,无需其它服务,而svnadmin需要部署php、数据库服务,所以我选择最方便的工具先试用。 系统环境 麒麟v10,X64 JDK 17 Svn 1.45.5 服务部署 项目地址:https://gitee.com/cym1102/svnWebUI/#svnwebui,当前版本1.9.0,项目地址里面有更详细的说明。 下载软件 wget -O svnWebUI.jar https://gitee.com/cym1102/svnWebUI/releases/download/1.9.0/svnWebUI-1.