DRL-ISP
本文提出的方法
action:选择的ISP tool
state:当前图片的相关特征
reward:与任务相关的函数
包含的tool-box,包含传统方法和cnn方法。代表了所有可以执行的action
传统的工具主要是从openCV等图像处理库中提取,比如白平衡、锐化、去噪
cnn工具则为轻量级的网络,有三层和八层两种。训练方式采用自监督,即对图像进行加噪、加模糊核训练。损失函数采用L1和VGG的特征损失结合
对单个工具进行联合训练,其中是加噪声,是去噪的tool。
对全局和局部两种路径而来的图像进行训练
损失函数:全局路径得来的与原始图像比较,局部路径得来的与加噪前的图像比较
状态计算:
- 使用预训练的AlexNet提取语义信息
- 使用灰度变换获得intensity(强度信息)
- 使用Sobel算子获得gradient(梯度信息)
对后两种使用多尺度直方图方法(multi-scale histogram)获得特征信息,然后将三种特征聚合获得当前图像的状态
智能体的训练方式采用离散的soft actor-critic
有两个Q网络,每次选择值较小的Q值以保证训练的稳定性
soft actor critic引入了熵
reward函数采用常用的一些图像评价指标,比如图像转换为RGB就是用PSNR。
函数具体操作是当前图像和先前一轮图像的指标差,再乘上缩放因子
一般选取PSNR作为修复时的reward函数,修复效果较好。
如果选取color或者intensity等作为reward函数,就会出现偏色、或者明亮度变化等情况。
对于一些其他视觉任务,更换reward函数也能取得较好的效果
在消融实验上,本文使用了不同的状态生成方法、和决策网络的层数。发现层数越高并不能提高效果
将强化学习的方法更改为DQN,效果变差。
工具箱也是在CNN的帮助下性能提高明显。
DRL-ISP
https://dreamerland.cn/2024/01/28/深度学习/DRL-ISP/