본문 바로가기
AI/논문 리뷰

[논문 리뷰] GPEN : GAN Prior Embedded Network for Blind Face Restoration in the Wild

by 미뇽도리 2025. 9. 28.

 

깃허브 링크 : https://github.com/yangxy/GPEN

 

GitHub - yangxy/GPEN

Contribute to yangxy/GPEN development by creating an account on GitHub.

github.com

 

논문 링크 : https://arxiv.org/pdf/2105.06070

 

 

1. Introduction

Blind Face Restoration (BFR) Task를 다룸
 
실제 환경에선 열화가 다양하기 때문에 BFR Task는 매우 어려운 문제임
GAN의 발전 이후 극도로 낮은 해상도의 입력을 재구성하려는 시도가 생김
- 사전 학습된 GAN을 변경하지 않아 복원 품질이 불안정한 문제 발생
 
본 논문은 GAN과 DNN의 장점을 통합함
GAN을 사전 학습한 뒤, 얼굴 복원을 위한 디코더 사전(prior)으로 DNN에 삽입함
합성된 저화질-고화질 얼굴 이미지 쌍으로 GAN 사전이 삽입된 DNN을 fine-tuning 함
 
U자형 DNN 구조
 
전역적 얼굴 구조는 깊은 특성 복원을 위한 잠재 코드로, 국소적인 얼굴 세부 정보는 얕은 특성을 복원하기 위한 노이즈로 사용됨
 

2. Related Work

[Face Image Restoration]
잡음 제거, 디블러링, 인페인팅, 이미지 초해상도와 같은 이미지 복원 과제에서 DNN의 성공적임
- 많은 DNN기반 얼굴 이미지 복원 방법이 제안
 
Wavelet-based approach
 
[GAN]
조건부 GAN(cGAN) 제안

 
생성기에 서로 다른 조건 정보를 제공 -> 이미지 투 이미지 변환 문제 성공적 처리
다양한 시나리오로 cGAN을 확장
 
cGAN : 입력 도메인에서 출력 도메인으로 직접 매핑 학습
ill-posed 과제에선 결과가 과도하게 매끈해지는 문제 발생
 
[GAN Prior for Image Generation]
GAN 모델을 사용해 주어진 이미지를 다시 latent code로 되돌리는 GAN inversion 작업이 개발
이미지를 StyleGAN의 확장된 잠재 공간에 임베딩 - 추가적인 의미론적 이미지 편집 가능
 
느리고 실제 응용에 적합 X
-> Pixel2Style2Pixel은 추가 최적화 없이 실제 이미지를 확장된 잠재 공간에 임베딩, 폭넓은 이미지-투-이미지 변환 과제에 사용 가능
 
GAN inversion은 이미지 공간을 잠재 공간으로 완벽하게 투영하는 것이 어려움
 
-> Gan Prior을 전이(transfer)하는 방식을 제안
GAN을 통한 이미지 생성에 도메인 적응을 적용 등 전이학습의 다양한 접근법이 소개됨
 
다른 연구 : 본 소스 도메인에서 획득한 지식을 서로 다른 타깃 도메인으로 전이하는 것을 목표
본 연구 : 소스와 타깃 도메인이 동일함
 
GAN Prior을 얼굴 복원을 위한 DNN에 임베딩 -> 서로 다른 네트워크 계층에서 적절한 잠재 코드와 노이즈 입력이 생성되도록 GAN Prior network와 DNN을 공동으로 fine-tuning함
 

3 Proposed Method

3.1 Motivation and Framework


열화된 얼굴 공간 X, 원래 HQ 얼굴 이미지 공간 Y
대부분 DNN 기반 방법은 mapping function을 학습함, 픽셀 단위 손실 함수 사용

x가 생성된 hq 얼굴들의 평균이 되어 세부 정보를 잃는 문제 발생 
 
GAN Prior network를 학습
GPEN 의 첫번째 부분은 CNN 인코더 -> 입력 DG 이미지 x를 원하는 latent code z로 매핑하는 법을 학습
G(z) -> Y를 통해 원하는 hq 얼굴 이미지 재생성 / 일대일 매핑
 
기존 방법들은 사전 학습된 GAN을 변경하지 않음
 


3.2 Network Architecture


[Mapping Network] 
Affine Transformation 이유 : Mapping network의 결과 w는 1xC의 shape를 가지고 있어서 style을 입힐 때 shape가 안 맞음. 아핀 변환을 통해 shape를 맞춰줌
 

 
 


[발표 PPT]