论文阅读:AdaptiveAE 面向动态场景高动态范围成像的自适应曝光策略
论文:AdaptiveAE An Adaptive Exposure Strategy for HDR Capturing in Dynamic Scenes
这篇文章发表于 2025 年 ICCV,由上海 AI 实验室、北京大学、香港中文大学团队联合提出AdaptiveAE,针对动态场景 HDR 采集的曝光优化问题,设计了基于深度强化学习的自适应曝光策略,解决了现有方法中快门速度与 ISO 交互忽视、运动模糊仅靠后处理的核心痛点,在多个数据集和实机测试中实现了 sota 性能。
摘要
主流的高动态范围成像技术通常依赖于融合多张以不同曝光设置(快门速度和ISO)拍摄的图像。在快门速度和ISO之间取得良好平衡对于实现高质量HDR至关重要,因为高ISO值会引入明显噪声,而长曝光时间则可能导致明显的运动模糊。然而,现有方法往往忽略快门速度和ISO之间的复杂相互作用,未能考虑到动态场景中的运动模糊效应。
在本工作中,我们提出了AdaptiveAE,一种基于强化学习的方法,用于优化快门速度和ISO组合的选择,以在动态环境中最大化HDR重建质量。AdaptiveAE集成了图像合成管道,将运动模糊和噪声模拟纳入训练过程,并利用语义信息和曝光直方图。它可以根据用户定义的曝光时间预算自适应地选择最优的ISO和快门速度序列,从而找到比传统方案更好的曝光调度方案。在多个数据集上的实验结果表明,该方法达到了最先进的性能。
关键词:高动态范围成像、自适应曝光、强化学习、运动模糊、噪声抑制

- 图 1:AdaptiveAE 以相机预览图像为输入,通过深度强化学习,采用三阶段顺序优化流程,为用于曝光融合的每帧低动态范围(LDR)图像自动预测感光度(ISO)与快门速度,从而在噪声水平与运动相关问题之间实现最优平衡,以在动态场景中完成高质量高动态范围(HDR)成像。AdaptiveAE 在 HDRV 数据集 [26] 上达到 39.7 dB 的峰值信噪比(PSNR);而基线方法 [6,21,32] 要么仅预测快门速度,要么未考虑运动因素,其 PSNR 均低于 37.6,且生成的 HDR 结果存在明显的运动模糊与重影伪影。
1. 引言
1.1 研究背景
高动态范围(HDR)成像在计算摄影中扮演着重要角色。由于硬件限制,单次拍摄只能覆盖低动态范围(LDR),因此需要通过HDR融合技术将多张不同曝光的LDR图像组合起来,以覆盖更宽的动态范围。
1.2 核心挑战
曝光值(EV)的选择是HDR拍摄过程中的关键环节,涉及以下权衡:
- 快门速度:延长快门速度可以提高信噪比,但会引入运动模糊
- ISO:提高ISO可以增加亮度,但会放大噪声
- 曝光差异:更大的曝光差异可以覆盖更宽动态范围,但会增加对齐风险
1.3 现有方法的局限性
- 现有曝光调度研究主要关注静态场景,忽略了运动模糊问题
- 基于学习的方法忽视了ISO与快门速度之间的复杂相互作用
- 许多方法将重影和运动模糊视为单独的后处理任务,不适用于实时应用
1.4 本文方法
本文提出AdaptiveAE,一种高效的曝光控制算法,针对动态场景的HDR拍摄,在图像采集阶段同时解决运动模糊和噪声问题。
核心思想:
- 模拟经验丰富的摄影师
- 在每次迭代中,输入已拍摄的LDR图像以及提取的语义和光照信息
- 学习确定后续拍摄的最优曝光设置,最大化新增信息同时降低动态场景中的对齐风险和运动模糊
1.5 主要贡献
- 双参数控制:同时控制曝光时间和ISO,比仅改变曝光时间的方法有更高的性能上限
- 场景适应性:在静态场景中达到与先进方法相当的性能,在动态场景中产生视觉效果更好的HDR图像
- 灵活帧数选择:可自动选择最佳拍摄帧数,平衡图像质量和时间预算
- 模糊感知数据合成管道:提出新的训练数据合成方法,同时考虑模糊和噪声
2. 相关工作
2.1 曝光包围策略
确定多曝光动态范围成像的最优曝光组合是一个经典问题。
传统方法:
- 大多数数码相机允许用户设置曝光包围的补偿比率
- 移动相机通常采用固定的自动曝光包围比率
启发式策略:
- 基于直方图的方法:平衡单帧信噪比(SNR)和饱和度
优化方法:
- Hasinoff等人首次将此问题建模为线性RGB域中的约束优化问题
- 后续扩展考虑了多输入图像的对齐问题(处理手持抖动)
- 神经网络的利用:在伽马校正域中估计曝光并融合多曝光图像以达到最优保真度
- 强化学习方法:评估色调调整后的综合图像质量作为奖励
2.2 动态场景中的挑战
静态场景:
- 增加欠曝光可以减少饱和度
- 更长的快门速度可以提高暗区域的信噪比
动态场景:
- 过度曝光会导致重影伪影
- 过长的快门速度会导致运动模糊
现有方法的局限:
- 启发式曝光包围通常限制在2-3档EV设置
- 现有方法未能完全解决动态场景中的运动问题
- 运动模糊和重影问题被留待后处理解决,但效果不佳
论文方法
传统的加权线性组合方法(如曝光融合)虽能直接估算信噪比,但在动态场景中会失效——移动物体因配准偏差产生的运动模糊和重影伪影难以量化。本文方法选择在图像采集阶段解决这些问题,而非后期处理(研究表明后期处理的效果往往次优)。我们基于少量已采集的帧,预测与曝光相关的各类风险,包括运动模糊、重影、噪声和过饱和;同时采用序列决策策略确定曝光和ISO参数,而非一次性为三张低动态范围(LDR)图像预测参数,这一设计贴合移动设备自动曝光的迭代特性,能适配场景中剧烈的亮度变化。
3.1 模糊感知的数据合成流水线
为模拟真实环境中的拍摄过程,我们设计了一套图像合成流水线,基于训练数据集中的高动态范围(HDR)视频,为LDR图像生成逼真的运动模糊和噪声效果,用于模型训练。典型的曝光参数调整围绕曝光值(EV)展开,其计算公式为:
EV=log2(F2T×100ISO)(1)EV=log _{2} \left( \frac {F^{2}}{T}× \frac {100}{ISO} \right) \tag{1}EV=log2(TF2×ISO100)(1)
其中,FFF 为光圈数,ISOISOISO 为感光度,TTT 为曝光时间(单位:秒)。与近期的HDR采集相关方法[6,21,32]一致,我们固定光圈和焦距以避免散焦,仅调节两个相机参数:一是控制进光量的快门速度,二是决定传感器增益的ISO。
本流水线基于指定的ISO和快门速度,为真实的静态HDR图像合成运动模糊和噪声。如图2所示,流水线以连续两帧静态HDR图像为输入,先根据快门速度合成运动模糊,得到线性空间下的模糊HDR图像;再结合快门速度和ISO添加噪声,生成最终的LDR图像,以此还原实际的曝光选择效果。需注意,运动模糊的合成应早于噪声添加——这是因为拍摄过程中,运动模糊会影响光子的捕捉数量和分布,进而改变传感器的原始输入信号。
运动模糊合成
现有的训练数据集包含带运动信息的场景连续HDR真值图像。以下说明如何为数据集场景中的第 iii 帧线性空间HDR图像fiLf_{i}^{L}fiL(上标LLL表示线性空间)模拟运动模糊(图2b):首先采用 μ=5000\mu=5000μ=5000 的μ律色调映射,将fiLf_{i}^{L}fiL和下一帧fi+1Lf_{i+1}^{L}fi+1L从HDR空间转换至LDR空间(图像插值算法的训练空间),得到fiTf_{i}^{T}fiT和fi+1Tf_{i+1}^{T}fi+1T(上标TTT表示LDR空间);随后通过RIFE[7]算法对两帧图像进行插值,生成256帧中间图像,得到图像序列 {fiT,s1T,s2T,⋯ ,s254T,fi+1T}\{f_{i}^{T}, s_{1}^{T}, s_{2}^{T}, \cdots, s_{254}^{T}, f_{i+1}^{T} \}{fiT,s1T,s2T,⋯,s254T,fi+1T};最后,针对为第 jjj 张LDR图像 ljTl_{j}^{T}ljT 选定的快门速度 TjT_{j}Tj,按以下公式模拟生成模糊HDR图像 bjLb_{j}^{L}bjL:
bjL=iTMO(fiT+∑m=1mjsmTmj),mj=⌈256TjΔτ⌉(2) b_{j}^{L}=iTMO \left(\frac{f_{i}^{\mathcal{T}}+\sum_{m=1}^{m_{j}} s_{m}^{\mathcal{T}}}{m_{j}}\right),\quad m_{j}=\left\lceil\frac{256 T_{j}}{\Delta \tau}\right\rceil \tag{2}bjL=iTMO(mjfiT+∑m=1mjsmT),mj=⌈Δτ256Tj⌉(2)
其中,Δτ\Delta \tauΔτ 为从拍摄 fiLf_{i}^{L}fiL 到即将拍摄 fi+1Lf_{i+1}^{L}fi+1L 的时间间隔,iTMOiTMOiTMO 表示μ=5000\mu=5000μ=5000 的逆μ律色调映射函数。
噪声合成
我们采用文献[6]中的噪声模型,将噪声建模为零均值随机变量,其来源为三个相互独立的部分:一是光子噪声,由光子到达的泊松分布特性决定,与记录的电子数ΦT\Phi TΦT呈线性关系;二是读出噪声,来源于传感器的信号读出过程;三是模数转换(ADC)噪声,由放大器和量化过程的综合效应产生。因此,对于未过饱和的像素,噪声的方差满足:
Var(n)=ΦT×ISO2U2+σread2×ISO2U2+σADC2(3)Var(n)=\frac{\Phi T × ISO^{2}}{U^{2}}+\frac{\sigma_{read }^{2} × ISO^{2}}{U^{2}}+\sigma_{ADC}^{2} \tag{3}Var(n)=U2ΦT×ISO2+U2σread2×ISO2+σADC2(3)
其中,Φ\PhiΦ 为辐射亮度,TTT 为快门速度,UUU 为相机相关的固有参数。\n\n基于该噪声模型(图2c),我们可为模糊HDR图像bjLb_{j}^{L}bjL结合选定的ISO和快门速度,合成对应的噪声并生成最终的LDR图像ljTl_{j}^{T}ljT,具体细节见补充材料。
3.2 自适应曝光策略(AdaptiveAE)的问题建模
拍摄前,AdaptiveAE可获取三幅初始预览LDR图像{pjT}1,2,3\{p_{j}^{T}\}_{1,2,3}{pjT}1,2,3(分别为欠曝光、中曝光、过曝光),其核心目标是为LDR图像采集寻找最优曝光参数(ISO和快门速度),使融合后的HDR图像达到理想的视觉效果。
本文将曝光包围合问题建模为马尔可夫决策过程[22],通过深度强化学习对曝光参数(ISO、快门速度)进行序列精修。如图4所示,过程从三幅默认曝光间隔的LDR图像开始,其曝光值相对任意参考基准为{−2p,0p,+2p}\{-2_{p}, 0_{p},+2_{p}\}{−2p,0p,+2p}(下标ppp表示初始基准),后续精修过程分阶段进行(图3):
- 智能体先为中曝光帧预测最优参数,建立新的0曝光值参考基准(下标xxx),并对两侧帧的参数进行适配,使曝光值形成对称的{−2x,0x,+2x}\{-2_{x}, 0_{x},+2_{x}\}{−2x,0x,+2x}包围合;
- 接着智能体将欠曝光帧的曝光值精修至−yx-y_{x}−yx,中曝光帧参数直接继承(复用0x0_{x}0x),过曝光帧参数适配为+yx+y_{x}+yx以保持对称,最终得到{−yx,0x,+yx}\{-y_{x}, 0_{x},+y_{x}\}{−yx,0x,+yx};
- 最后智能体将过曝光帧的曝光值预测为+zx+z_{x}+zx,形成非对称的曝光包围合{−yx,0x,+zx}\{-y_{x}, 0_{x},+z_{x}\}{−yx,0x,+zx}。
该序列预测过程可进一步扩展——本文采用的融合方法[7]支持融合超过三幅的LDR图像。相关过程的详细演示视频及曝光包围合扩展示例见补充材料。

- 图 3 AdaptiveAE 的训练方案:状态被定义为利用预测得到的感光度(ISO)和快门速度合成的三帧低动态范围图像 LDR。从初始状态 s0 开始,三帧低动态范围图像的曝光值(EV)为 {−2,0,+2},并以任意的 EV 0 基准、感光度与快门速度为初始值;智能体依次对下一阶段的采集参数(即感光度和快门速度)进行预测、定制或继承,并通过我们的图像合成流程生成对应的低动态范围图像。与训练阶段不同,在实际应用时,低动态范围图像将通过实拍采集而非合成得到。
3.3 优化目标
将本问题记为P=(S,A)P=(S, A)P=(S,A),其中SSS为状态空间,AAA为动作空间。具体到本任务中,状态空间SSS为LDR图像集(通常包含欠、中、过三幅曝光图像)的曝光参数(ISO和快门速度)组合空间;动作空间AAA为所有可能的ISO和快门速度离散组合。\n\n训练阶段,在第jjj个状态sj={(ISOj1,Tj1),(ISOj2,Tj2),(ISOj3,Tj3)}s_{j}=\{(ISO_{j1}, T_{j1}),(ISO_{j2}, T_{j2}),(ISO_{j3}, T_{j3})\}sj={(ISOj1,Tj1),(ISOj2,Tj2),(ISOj3,Tj3)}下(下标1、2、3分别对应欠、中、过曝光LDR图像),首先匹配对应的HDR真值图像对(fiL,fi+1L)1,2,3(f_{i}^{L}, f_{i+1}^{L})_{1,2,3}(fiL,fi+1L)1,2,3,并通过图2的图像合成流水线生成对应的LDR图像{ljT}1,2,3\{l_{j}^{T}\}_{1,2,3}{ljT}1,2,3;随后智能体以{ljT}1,2,3\{l_{j}^{T}\}_{1,2,3}{ljT}1,2,3为输入,预测动作aj=(ISOj,Tj)a_{j}=(ISO_{j}, T_{j})aj=(ISOj,Tj),并通过曝光值适配或继承前一状态sj−1s_{j-1}sj−1的参数,将该动作扩展为三幅LDR图像的曝光参数组合,实现从状态sjs_{j}sj到sj+1s_{j+1}sj+1的映射。为曝光包围合新增MMM幅LDR图像的过程,对应一组状态与动作的轨迹τ\tauτ:
τ=(s0,a0,⋯ ,sM−1,aM−1,sM)(4)\tau=\left(s_{0}, a_{0}, \cdots, s_{M-1}, a_{M-1}, s_{M}\right) \tag{4}τ=(s0,a0,⋯,sM−1,aM−1,sM)(4)
其中,sMs_{M}sM为终止状态。本文的优化目标是找到一个最优策略,使决策过程中的累积奖励最大化。对于第jjj个动作(为曝光融合的第jjj幅LDR图像确定曝光参数),其奖励函数定义为:
r(sj,aj)=R(sj+1)−R(sj)−P(j)(5)r\left(s_{j}, a_{j}\right)=\mathcal{R}\left(s_{j+1}\right)-\mathcal{R}\left(s_{j}\right)-\mathcal{P}(j) \tag{5}r(sj,aj)=R(sj+1)−R(sj)−P(j)(5)
其中,sj+1=p(sj,aj)s_{j+1}=p(s_{j}, a_{j})sj+1=p(sj,aj)为动作aja_{j}aj对应的下一状态,R\mathcal{R}R为本文设计的奖励项,P(j)\mathcal{P}(j)P(j)为步数惩罚项,详细定义见3.4节。
如图4所示,本模型由策略网络和价值网络组成,二者均采用基于卷积神经网络(CNN)的架构:策略网络根据输入图像sss,预测下一帧曝光的最优ISO和快门速度,输出动作概率分布π(s,θ)\pi(s, \theta)π(s,θ);价值网络Vπ(s,ω)V^{\pi}(s, \omega)Vπ(s,ω)同步估算输入状态的价值。将两个网络的参数整合为ψ=(θ,ω)\psi=(\theta, \omega)ψ=(θ,ω),通过最大化目标函数J(θ)ψJ(\theta)_{\psi}J(θ)ψ完成训练,学习得到最优策略π(s)\pi(s)π(s)。具体而言,本文采用异步优势演员-评论家(A3C)算法[18]训练策略网络和价值网络,其中策略网络为“演员”,价值网络为“评论家”,网络的详细结构见补充材料。
3.4 奖励函数
设计奖励函数时,我们重点考虑四大核心因素:(1) 融合HDR图像与真值图像的相似度;(2) 融合HDR图像中重要区域的质量;(3) 融合HDR图像中运动区域的质量;(4) 对过长LDR图像序列的惩罚。据此,奖励函数定义为:
R=−(Pconstruction+Ppriority+Pghost)(6)\mathcal{R}=-\left(P_{construction }+P_{priority }+P_{ghost }\right) \tag{6}R=−(Pconstruction+Ppriority+Pghost)(6)
PconstructionP_{construction}Pconstruction为融合HDR图像与真值图像的L2损失,是奖励函数的核心组成部分,其值受噪声和过饱和的直接影响。需注意,在整个序列决策过程中,中曝光帧始终作为HDR融合的参考帧;根据公式(3),训练阶段的噪声基于真值HDR图像的辐射亮度合成,推理阶段则基于含噪声信号的辐射亮度估算噪声。PpriorityP_{priority}Ppriority为显著区域掩码内的L2损失,掩码由显著性预测模型[20]生成。该损失项确保图像中视觉显著的核心区域保持最高成像质量,从而提升整体视觉效果。
PghostP_{ghost}Pghost为运动区域掩码内的L2损失,掩码覆盖运动幅度较大、易因运动模糊或重影导致HDR质量下降的区域。掩码的生成方式为:计算融合参考帧(中曝光帧)的HDR真值与对应HDR图像fiLf_{i}^{L}fiL之间的光流(采用RAFT[28]算法),选取光流向量模值超过阈值KKK的像素;将最大光流向量归一化后,经实验验证,将阈值KKK设为0.2。PghostP_{ghost}Pghost引导智能体对易产生运动伪影的区域进行针对性优化,是实现高质量HDR采集的关键,这一点在表2的消融实验结果中得到验证。P(j)\mathcal{P}(j)P(j)为步数惩罚项,用于抑制过长的曝光包围合。即使采用随机曝光参数,采集过多帧(如10帧)也能得到近乎完美的HDR融合结果,但该方式耗时过长;实验表明,通常3帧[2,6,21]即可实现高质量HDR采集。因此,本文对采集帧数超过3帧的情况施加惩罚,公式定义为:
P(j)={0if j≤Hα(j−H)2if j>H\mathcal{P}(j)=\begin{cases} 0 & \text{if } j \leq H \\ \alpha(j-H)^{2} & \text{if } j > H \end{cases}P(j)={0α(j−H)2if j≤Hif j>H
其中,α\alphaα为正系数,HHH设为3。
基于上述奖励函数,智能体可实现曝光参数的自适应优化:为LDR图像预测相对更快的快门速度(尤其是作为参考帧的中曝光帧),在最小化运动模糊的同时,避免因ISO过高引入噪声;当场景存在过饱和与运动叠加导致的LDR图像信息缺失、易产生重影时,智能体会自适应选择曝光值,同时抑制欠曝光和过饱和,大幅降低最终重建图像中的重影伪影。

- 图 4 本文方法的训练流程:将感光度(ISO)与快门速度的预测过程建模为马尔可夫决策过程(MDP)。其中,基于卷积神经网络(CNN)的策略网络预测下一组曝光参数对应的感光度与快门速度;同时,基于卷积神经网络的价值网络对状态价值进行估计。我们利用所提出的感知模糊图像合成流程合成预测得到的低动态范围(LDR)图像,并采用 DeepHDR [7] 方法对这些 LDR 图像进行融合,生成高动态范围(HDR)结果并计算当前策略的奖励值。整个系统采用 A3C(异步优势演员 - 评论家) 算法进行优化。
第四章 实验
本章围绕 AdaptiveAE 展开了多维度实验验证,涵盖基准性能对比、消融研究、跨数据集 / 跨融合方法测试、实机采集验证等,同时明确了实验设置、评价指标与推理效率,全面验证了该方法在动态 / 静态场景 HDR 采集中的优越性、鲁棒性与工程实用性,核心结论均通过定量指标与定性可视化双重佐证。
实验基础设置
数据与训练:以 Real-HDRV 为训练集(770 个场景,含 440 动态 / 330 静态),在 Real-HDRV、DeepHDRVideo 数据集开展测试;采用 512×512 裁剪、随机翻转 / 旋转做数据增强,模糊 / 噪声合成提前离线完成以提升训练效率。
对比方法:选取三类主流 HDR 曝光方法为基线 ——Pourreza et al.(非深度学习,K-means 调快门)、Hasinoff et al.(非深度学习,数学优化 ISO / 快门)、Wang et al.(强化学习,仅预测快门,忽略运动);固定所有方法的 LDR 采集帧数为 3,基线方法 ISO 统一设为 200。
融合与评价:主实验采用 DeepHDR 做曝光融合,跨方法测试拓展至 HDR-GAN、HDR-Transformer;选用 5 项 HDR 专用指标:PSNR-μ、SSIM-μ、HDR-VDP-2、PU-PSNR、PU-SSIM。
实机测试:使用 SONY Alpha 7C-II 相机,固定光圈 f/2.8,在真实动态场景中手动设置各方法预测的 ISO / 快门参数,验证实际拍摄效果。
核心实验结果
基准性能 SOTA:AdaptiveAE 在 Real-HDRV(PSNR-μ 39.70)、DeepHDRVideo(PSNR-μ 39.81)数据集上,所有评价指标均显著超越三款基线方法,因兼顾 ISO / 快门优化、运动模糊合成与针对性奖励设计,实现了噪声与运动伪影的最优平衡。
消融研究验证模块有效性:以 “仅含重建损失 + 步数惩罚” 为基础模型,加入显著区域损失Ppriority后性能小幅提升,再加入运动区域损失Pghost后达到最优性能(PSNR-μ 39.70),证明两大损失项对提升关键区域、动态区域成像质量的核心作用。跨融合方法适配性优异:在 HDR-GAN、HDR-Transformer 等更强融合模型上,AdaptiveAE 的性能优势进一步扩大(HDR-Transformer 下 PSNR-μ 达 41.37);而基线方法因采集阶段未考虑运动,即便搭配先进融合模型,也无法有效解决模糊 / 重影问题,验证了 “采集阶段解决运动问题” 的必要性。
跨数据集泛化能力强:在未训练过的 DeepHDRVideo 数据集上仍保持 SOTA 性能,证明模型不局限于训练集,对不同真实场景具有良好的适配性。
实机采集效果显著:在 SONY Alpha 7C-II 的真实动态场景测试中,AdaptiveAE 与基线方法的噪声控制效果相当,对运动模糊和重影伪影的抑制效果远优于基线,贴合实际拍摄的视觉需求。
推理效率满足实时需求:单张 HDR 推理总时间<250ms,无优化时裸机单帧参数预测仅 3.5ms;借助相机预览缓冲区、异步驱动等工程手段,可进一步降至实时水平,兼顾精度与工程实用性。
补充实验与鲁棒性验证
动态场景鲁棒性突出:运动幅度越大,AdaptiveAE 相比基线的性能优势越明显;模型会为高运动场景自动预测更快的快门速度,针对性抑制运动模糊。
最优固定 ISO 仍逊于 AdaptiveAE:将 Wang et al. 的 ISO 调至数据集最优值(W-optimal),其性能仅小幅提升(PSNR-μ 37.64),且最优 ISO 数据集特异性强、泛化差,证明自适应优化 ISO / 快门的必要性。
后处理去模糊效果有限:为 Wang et al. 搭配预融合 / 融合中 / 后融合去模糊方法,性能提升微弱且会损伤静态区域质量,进一步佐证 “采集阶段解决运动模糊” 比后处理更高效。
接近局部最优解:通过高斯采样对 AdaptiveAE 的初始预测做迭代优化,发现其性能已非常接近数据集局部最优值,且效率远高于暴力搜索。
关键附加结论
AdaptiveAE 支持灵活的采集帧数选择,仅在高动态、高运动的少数场景中会突破 3 帧限制(因步数惩罚的约束),实现了成像质量与拍摄时间成本的自适应平衡;且模型参数仅 7-8 百万,计算成本低,易部署在相机、移动设备等硬件上。