본문 바로가기
논문리뷰

Towards Unsupervised Deep Image Enhancement With Generative Adversarial Network

by Park Hyun Kook 2021. 3. 17.

Z. Ni, W. Yang, S. Wang, L. Ma and S. Kwong, "Towards Unsupervised Deep Image Enhancement With Generative Adversarial Network," in IEEE Transactions on Image Processing, vol. 29, pp. 9140-9151, 2020, doi: 10.1109/TIP.2020.3023615.

 

-본 논문에서는 unpaired dataset 활용한 image enhancement 진행하며 UEGAN(Unsupervised image enhancement GAN) 네트워크를 제안하였다. 입력 영상을 타겟 영상(unpaired)으로부터 전이하고자 하는 특징(desired characteristics) unsupervised 방식으로 학습시키기 위해 joint global & local generator multi-scale discriminator 그리고 3가지 loss function 이용한다.

그림  1: UEGAN 네트워크 구조

Joint global & local generator: Encoder-Decoder 구조이며 GAM(Global Attention Module) 통해 서로 다른 크기의 feature map locally, globally하게 조절한다. 논문에서는 global feature들을 영상의 전체의 가이드라인이자 local feature 조절하는 역할로 수행시킨다. 이는 영상 전문가들이 수작업으로 영상을 개선할 global 정보를 먼저 수정하고(전반적인 lighting condition tone) 다음 수정한 global information local content 함께 고려하며 local 영역을 조정한다는 기반으로 진행하였다.

 

  -그림 1 구조와 같으며 저품질 영상과 고품질 영상은 함께 들어가지 않고 번에 1개만 들어간다.  고품질 영상이 입력되는 이유는 identity loss때문이라고 생각하는데, 이는 논문에서는 identity loss 고품질 영상을 기반으로 계산되기 때문에 입력 영상이 고품질 영상의 특성을 충족시킨다면 identity loss 입력과 출력 영상을 색상분포와 대비를 유지시키고자 하기 때문에 저품질 영상이 고품질 영상처럼 향상되게 만들지만 과도하게 향상되는 것을 방지하는 constraint 역할을 수행하는 같다.  (저품질 영상이 입력될 경우 고품질 영상의 특성을 배워 색상분포와 대비가 향상되어야 하고, 고품질 영상일 경우 입력 영상 그대로 유지되어야 한다.) 

  -GAM: Local feature global attention 추출한다. ( 채널 2번의 FC 통해 전체 global parameter 추출한 이를 input concat하며 global & local feature joint하게 처리하려는 느낌, Squeeze & Excitation 변형한 같다.)

 

그림 2: GAM의 구조

Multi-scale discriminator: 다양한 크기에서 결과 영상을 판별하며 generator 하여금 global consistency finer detail 향상시킨 영상을 생성하게 만든다.

 

-기존의 discriminator들은 제일 마지막 layer(large receptive field)에서 영상의 영역을 포착하여 generator 하여금 생성된 영상의 global consistency 유지시키고, intermediate layer(small receptive field)들은 generator 하여금 fine detail 집중하게 하는데 이를 기반으로 2개를 모두 사용하는 Multi-scale discriminator 통해 global consistency finer detail 모두 향상시킬 있다.

 

Loss function

-Fidelity loss: feature domain에서의 L2 loss이며 입력 영상과 결과영상 간의 content 유지시킨다.

-Quality loss: adversarial loss이며, 타겟 영상으로부터 학습하고자 하는 특징을 입력영상에 학습시킨다.

-Identity loss: Over-enhancement 방지를 위하여 향상된 결과 영상과 입력 영상 사이에 일관성을 유지시킨다. (과도한 영상 색상 변형 방지 warm color, high contrast, over exposure)

댓글