Z. Ni, W. Yang, S. Wang, L. Ma and S. Kwong, "Towards Unsupervised Deep Image Enhancement With Generative Adversarial Network," in IEEE Transactions on Image Processing, vol. 29, pp. 9140-9151, 2020, doi: 10.1109/TIP.2020.3023615.
-본 논문에서는 unpaired dataset을 활용한 image enhancement를 진행하며 UEGAN(Unsupervised image enhancement GAN) 네트워크를 제안하였다. 입력 영상을 타겟 영상(unpaired)으로부터 전이하고자 하는 특징(desired characteristics)을 unsupervised한 방식으로 학습시키기 위해 joint global & local generator와 multi-scale discriminator 그리고 3가지 loss function을 이용한다.
Joint global & local generator: Encoder-Decoder 구조이며 GAM(Global Attention Module)을 통해 서로 다른 크기의 feature map을 locally, globally하게 조절한다. 본 논문에서는 global feature들을 영상의 전체의 가이드라인이자 local feature를 조절하는 역할로 수행시킨다. 이는 영상 전문가들이 수작업으로 영상을 개선할 때 global 정보를 먼저 수정하고(전반적인 lighting condition과 tone) 그 다음 수정한 global information과 local content를 함께 고려하며 local한 영역을 조정한다는 기반으로 진행하였다.
-그림 1의 구조와 같으며 저품질 영상과 고품질 영상은 함께 들어가지 않고 한 번에 1개만 들어간다. 고품질 영상이 입력되는 이유는 identity loss때문이라고 생각하는데, 이는 본 논문에서는 identity loss는 고품질 영상을 기반으로 계산되기 때문에 입력 영상이 고품질 영상의 특성을 충족시킨다면 identity loss는 입력과 출력 영상을 색상분포와 대비를 유지시키고자 하기 때문에 저품질 영상이 고품질 영상처럼 향상되게 만들지만 과도하게 향상되는 것을 방지하는 constraint 역할을 수행하는 것 같다. (저품질 영상이 입력될 경우 고품질 영상의 특성을 배워 색상분포와 대비가 향상되어야 하고, 고품질 영상일 경우 입력 영상 그대로 유지되어야 한다.)
-GAM: Local feature의 global attention을 추출한다. (각 채널 별 2번의 FC를 통해 전체 global parameter를 추출한 후 이를 input과 concat하며 global & local feature를 joint하게 처리하려는 느낌, Squeeze & Excitation을 변형한 거 같다.)
Multi-scale discriminator: 다양한 크기에서 결과 영상을 판별하며 generator로 하여금 global consistency와 finer detail을 향상시킨 영상을 생성하게 만든다.
-기존의 discriminator들은 제일 마지막 layer(large receptive field)에서 영상의 큰 영역을 포착하여 generator로 하여금 생성된 영상의 global consistency를 유지시키고, intermediate layer(small receptive field)들은 generator로 하여금 fine detail에 집중하게 하는데 이를 기반으로 이 2개를 모두 사용하는 Multi-scale discriminator를 통해 global consistency와 finer detail을 모두 향상시킬 수 있다.
Loss function
-Fidelity loss: feature domain에서의 L2 loss이며 입력 영상과 결과영상 간의 content를 유지시킨다.
-Quality loss: adversarial loss이며, 타겟 영상으로부터 학습하고자 하는 특징을 입력영상에 학습시킨다.
-Identity loss: Over-enhancement 방지를 위하여 향상된 결과 영상과 입력 영상 사이에 일관성을 유지시킨다. (과도한 영상 색상 변형 방지 warm color, high contrast, over exposure)
댓글