Deep High-Resolution Representation Learning for Human Pose Estimation
Authors: Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang
-본 논문에서는 기존의 high-to-low resolution이나 low-to-high resolution의 방식이 아닌 high-resolution 네트워크를 유지하며 high-to-low resolution subnetwork를 통해 얻은 respresentation을 점진적으로 합하여 rich high representation을 이끌어 낸다.
-제안하는 네트워크는 2가지 강점을 가진다.
-첫번째는Figure 1과 같이 입력 받은 original input resolution을 그대로 유지하면서 아래의 high-to-low subnetwork 와 합쳐지기 때문에 original high resolution을 유지할 수 있다는 장점이 있다. 이는 기존의 방식인 upsampling을 이용한 low-to-high를 통해 high resolution을 복원하는 것보다 predicted heatmap이 좀 더 정확하는 결과를 가진다.
-두번째는 기존의 fusion방식은 low level과 high level의 representation을 합치는 방식이지만 제안하는 방식은 repeated multi-scale fusion 방식을 사용하며 high-resolution representation에 같은 depth와 유사한 level의 low-resolution representation을 보조로 사용하며 더욱 풍부한 pose estimation을 가능하게 하고, 실제로 predicted heatmap도 더 정확한 결과를 보였다.
댓글