Multi-level Wavelet-CNN for Image Restoration (CVPRW 2018)
Authors: Pengju Liu, Hongzhi Zhang, Kai Zhang, Liang Lin, Wangmeng Zuo
-low level vision task에서 receptive field size을 효율성은 중요한 요소이며 일반 convolution layer를 통해 계산비용을 감수하며 receptive field를 확장한다.
-최근 dilated convolution을 많이 사용하지만, gridding effect의 문제와 dilated convolution의 receptive field는 결국 input image의 spare sampling의 결과물이라는 문제가 존재한다.
-따라서 본 논문에서는 MWCNN(Multi-level Wavelet CNN)을 통해 receptive field와 computational efficiency를 효과적으로 절충한다.
-제안하는 MWCNN은 기존 U-Net의 구조에 wavelet transform을 이용하여 feature map의 사이즈를 줄이며 subnetwork를 만들어낸다. DWT는 invertible하기 때문에 downsampling으로 이용해도 information을 유지할 수 있다. 더불어 DWT를 통해 feature map의 frequency와 location information을 모두 capture할 수 있기 때문에 detail texture또한 보존이 가능하다.
-Subnetwork를 확장시킬 때는 inverse-wavelet tranform을 사용하며 low-resolution feature map을 high-resolution feature maps으로 upsampling하여 재구성한다.
-더불어 feature representation을 강화하고 계산 부담 감소를 위해 element-wise sum을 이용하여 subnetwork 축소하고, 확장시킬 때의 feature map을 fusion한다.
-DWT는 4개의 필터를 통해 이미지를 필터링한다. input image를 DWT한 후 downsmapling을 통해서 4개의 subband image가 출력된다. downsampling operation을 사용하였지만, DWT의 biorthogonal 특성으로, downsampling된 feature는 IDWT를 통해 정확하게 input image로 재구성될 수 있다.
-각 level 별로 DWT transform이 끝나면, 모든 subband image들은 CNN block의 input으로 입력되며, compact representation을 학습한다.
-제안하는 MWCNN의 핵심은 DWT operation 다음으로 CNN block이 따라오는 것이다. 각 CNN block은 4개의 pooling이 없는 FCN(Fully Connected Network)이며, 모든 subband image(4개)를 input으로 입력받는다.
-기존 U-net과의 차이점은 down-sampling에서 feature map channel에 영향을 주지 않지만, 제안하는 MWCNN은 downsampling을 통해 feature map channel의 개수를 늘린다.
또한 기존 U-net은 contracting과 expanding subnetworks를 concat을 통해 fuse하지만, 제안하는 네트워크는 element-wise summation을 이용한다.
-Figure 3은 gridding effect를 비교하며, 이를 통해 제안하는 MWCNN(figure3-©)는 완벽하게 gridding effect를 피하는 것을 확인할 수 있다.
댓글