RawToBit
摘要
图像压缩是相机图像信号处理(ISP)管道中的一个重要且最后的处理单元。虽然许多研究已经致力于用单个端到端优化的深度学习模型替代传统的ISP管道,但图像压缩几乎没有被视为模型的一部分。在本文中,我们研究了设计一个完全端到端优化的相机ISP,其中包括图像压缩。为此,我们提出了RAWtoBit网络(RBN),可以同时有效地执行这两个任务。通过引入两个专门用于每个任务的教师网络,RBN进一步改进了一种新颖的知识蒸馏方案。大量实验证明,我们提出的方法在速率失真权衡方面明显优于替代方法。
方法
先前的ISP-NET研究没有考虑到isp管道生成的sRGB图像已经进行了有损图像压缩
本文提出RBN,将RAW数据作为输入,并生成比特流作为输出;提出一种方法,通过ISP教师和压缩教师进行知识蒸馏,使RBN能够有效地执行ISP和压缩任务;实验结果表明,RBN在知识蒸馏下显著改善了速率失真性能,优于级联或统一结构。
原先注意力映射被定义为沿中间层输出的通道尺寸的绝对值之和。本文中将注意力映射定义为沿通道维度的直接和
训练过程先对两个教师网络进行训练,然后在进行知识蒸馏
可视化的错误的像素分布
对相机的处理和压缩的展示
消融实验数据,在进行知识蒸馏后性能优势明细。
图像压缩通常包括以下步骤:
图像变换(Transform):将原始图像转换为另一种表示形式,通常是一组变换系数(transformed coefficients)。这些变换系数更容易被压缩,因为它们可能展现出图像中的重要特征并减少冗余信息。
量化(Quantization):对变换后的系数进行量化,将其近似为一组离散值。量化会导致信息损失,但可以大大减少数据量。量化的精度(即允许的信息损失程度)通常通过控制量化步长来实现。
熵编码(Entropy Coding):对量化后的系数进行压缩,通常使用熵编码方法。熵编码根据数据中的统计特性来分配变长的编码,以便更频繁出现的符号(或符号组合)使用较短的编码,从而进一步减少表示数据所需的比特数。
Bitstream can be decoded to reconstruct a high quality sRGB image