KalelPark's LAB

[ 논문 리뷰] Conditional Image Synthesis With Auxiliary Classifier GANs 본문

Data Science/Generative Adversarial Networks

[ 논문 리뷰] Conditional Image Synthesis With Auxiliary Classifier GANs

kalelpark 2023. 1. 29. 12:29

GitHub를 참고하시면, CODE 및 다양한 논문 리뷰가 있습니다! 하단 링크를 참고하시기 바랍니다.
(+ Star 및 Follow는 사랑입니다..!)

https://github.com/kalelpark/Awesome-ComputerVision

 

GitHub - kalelpark/Awesome-ComputerVision: Awesome-ComputerVision

Awesome-ComputerVision. Contribute to kalelpark/Awesome-ComputerVision development by creating an account on GitHub.

github.com

Abstract

본 논문에서는, image synthesis를 위한 새로운 방법론인 Genartive adversarial Net을 도입합니다. 우리는 일관성을 나타내는 이미지를 생성하는 label condition을 활용하여 GAN 변형을 구성합니다. 본 논문에서는 image quality을 평가하기 위한 이전의 방식을 확장하고, class-conditional image synthesis 다양성과 차별성을 평가하기 위한 2가지 방식을 제공합니다. 본 연구에서는 고해상도 샘플이 저해상도 없는 클래스 정보를 제공하는 것을 보여줍니다.

Introduction

자연 이미지의 구조를 파악하는 것은 상당한 연구가 진행중이다. 자연의 이미지는 본질적인 불변성과 대규모의 통계적 구조 특성을 파악해야합니다. 합성적인 이미지를 만들기 위해서는 몇몇 유망한 접근법들이 있습니다. Variational autoencoders(VAEs)는 훈련 데이터의 최대 우도 추정에서의 하한을 최대화합니다. VAE는 학습을 하기에는 상당히 쉽지만, 잠재적으로 제한적인 가정을 도입해서 활용합니다.
자동 회귀 모델은 잠재 편수를 사용하지 않고, 픽셀에 대해서 조건부 분포를 직접 모델링을 진행합니다.

 

이러한 모델은 설득력 있는 샘플을 생성하지만, 샘플을 추출하는데 비용이 많이 들고, 잠재적인 표현을 제공하지 않습니다. 가역 밀도 추정치는 제한된 함수를 사용함으로써 잠재 변수를 변환합니다. 이러한 방법론은 log-likelihood를 정확하게 계산할 수 있다는 장점이 존재하지만, 몇몇의 제약이 존재합니다.

 

GAN(Genarative Adversarial Networks)는 이미지 합성모델을 훈련하기 위한 게임 이론식 공식에 초점을 맞춰 접근합니다. 최근 연구에서 GAN은 설득력 있음을 보여줬습니다. 하지만, GAN은 특히 가변성 높은 데이터 세트에서 일관성 있고, 고해상도를 생성하는데 상당한 어려움이 존재합니다. 

본 논문에서는 GAN에 latent space를 함께 활용하여, 높은 퀄리티의 sample을 추출합니다. 또한, 고해상도 샘플이 저해상도 샘플의 단순한 코기 조절이 아니라는 것을 증명하였다.

AC-GANs

auxiliary classifier GAN이라고 불리는 GAN architecture라고 부른다. AC-GAN에서 생성된 모든 sample에 대응되는 노이즈 z외에 해당 클래스 레이블이 존재합니다. 즉, ACGAN은 CGAN 이후에 나온 논문으로, Discriminator가 real/fake를 판별할 뿐만 아니라, class prediction도 같이 학습을 합니다.

모델은 구조적인 면에서 기존의 모델과 엄청나게 차이가 존재하지 않습니다. 하지만, 표준적인 GAN공식에서의 약간의 수정은 우수한 결과를 생성하고 안정적으로 훈련하는 것이 가능합니다. 게다가 우리는 ACGAN model이 기술적 기여의 일부라고만 생각합니다. 

real/fake 쪽을 판별하는 부분은 G와 D가 적대적으로 학습을 하지만, class prediction 쪽은 adversarial 하지 않게 학습을 진행합니다.
또한, 이전 연구들은 class의 수를 늘리면 quality가 줄었지만, ACGAN은 class별로 큰 데이터셋을 나눈 후 각 subset에 대해 G와 D를 학습할 수 있기 때문에 안정적이다.

Result

Generating High Resolution Images Improves Discriminability

클래스 조건부 이미지 합성모델을 구축하려면 합성된 이미지를 의도된 클래스에 속하게 생성하는 방법을 측정하는 것이 필수적이다. 특히, 고해상도 이미지를 만드는 것은 단순히 저해상도 샘플을 단순한 크기 조정하는 것이 아니다. 즉, 이미지 합성 모델의 목표는 높은 고해상도의 이미지를 생성하는 것 뿐만 아니라, 저해상도 이미지와 차별적인 부분을 생성하는 것이다.

 

우리는 bilinear interpolation에 의하여 해상도가 감소된 이미지와 실제 이미지 사이의 정확도를 측정합니다.

Discussion

본 논문에서는 AC-GAN arcitecture를 설명합니다. 우리는 공간적 해상도의 기능으로써, 이미지의 차별성을 평가하는 지표를 설명합니다.

또한 100개의 class를 기잔 ImageNet을 활용하는 경우 고해상도의 이미지를 생성하는 것이 가능하다는 것을 시사합니다.

https://arxiv.org/abs/1610.09585

 

Conditional Image Synthesis With Auxiliary Classifier GANs

Synthesizing high resolution photorealistic images has been a long-standing challenge in machine learning. In this paper we introduce new methods for the improved training of generative adversarial networks (GANs) for image synthesis. We construct a varian

arxiv.org

 

Comments