KalelPark's LAB

[ 논문 리뷰 ] Taming Transformers for High-Resolution Image Synthesis 본문

Data Science/Generative Adversarial Networks

[ 논문 리뷰 ] Taming Transformers for High-Resolution Image Synthesis

kalelpark 2023. 4. 9. 12:55

Abstract

Transformer는 상당한 표현력을 지니고 있지만, high-resolution images와 같이 long sequence에 대해서는 상당히 계산이 취약합니다. 본 논문에서는 어떻게 CNN의 inductive bias와 transformer의 표현력을 어떻게 결합해야하는지 증명하고, 고해상도 이미지를 만드는 방법을 언급합니다. 또한, CNN을 사용하여 Image constituents의 context-rich vocabulary를 어떻게 학습하는지 보여주고, transformer를 활용하여 high-resolution images의 구성을 효율적으로 모델링하는 방법을 성명합니다.

우리의 접근법은 object class, spatial information과 같은 비공간적 정보를 가진 conditional synthesis task에 적용이 가능하고, 이이미지 생성을 control 할 수 있습니다.

Introduction

Transformer와 CNN의 특징들에 대해서 언급하고 있습니다. 하지만 Transformer는 Pixel간의 모든 관계를 학습하는반면, CNN은 local correlation 내 prior knowledge를 활용하도록 design되어 있습니다. 또한 Transformer의 관찰했을 때, 몇가지 의문을 남깁니다. Vision model을 훈련할 때마다 이미 학습된 부분을 다시 배워야 하는지 또는 inductive bias를 가지고, Transfromer의 유용성을 같이 활용할 수 있는지 의문을 남깁니다. 본 논문의 요지는 Convolution과 Transformer의 장점을 같이 활용할 수 있는지에 관한 것입니다. 본 논문에서는 문맥적으로 풍푸한 시각적 정보를 가진 Convolution 접근법을 사용하고, global composition을 학습하게 합니다.

시각적 부분에 대한 분포를 모델링하기 위해서는 Transformer를 활용해야 합니다. 뿐만 아니라, low-level stastistics의 필요를 완화하기 위해서 adversarial approach를 활용합니다. 우리의 방법론은 classes와 layerout을 조정함으로써, 이미지 생성을 제어하는 것이 가능합니다.

Method

본 논문의 목표는 Transformer models의 학습 기능을 활용하고, Super Resolution과 MegaPixel을 만드는데 사용하는 것입니다. 이전 연구에서는 Pixel의 크기를 64x64로 변환하였지만, 이러한 방법은 상당히 많은 비용이 들뿐만 아니라, 높은 해상도를 만드는 것이 어렵습니다. High-resolution image를 만들기 위해서는 global composition of images를 이해해야 하며, locally realistic를 생성하는 것뿐만 아니라, Image의 전체적인 Pattern을 이해해야 합니다. 우리는 효율적으로 학습하기 위해서, Composition의 표현 길이를 줄일 뿐만 아니라, Model을 효율적으로 만들도록 합니다. 이러한 접근법은 realistic 이미지를 생성하는 것이 가능하며. high resolution image를 생성하는 것이 가능하게 합니다.

Learning an Effective Codebook of Image Constituents for use in Transformers

Image synthesis를 위한 highly expressive transformer architecture를 만들기 위해서는, Image를 Sequence 형태로 표현해야 합니다. individual pixel로 만드는 것 대신에 우리는 Codebook의 항목으로써 표현합니다. discrete spatial codebook을 효율적으로 학습하기 위해서, 우리는 CNN의 inductive bias를 포함한 것을 제안하고, neural discrete representation learning의 아이디어를 활용합니다. 첫 번째로, 우리는 Enocder 와 Decoder를 Covolution으로 사용하며, 이러한 벙법은 discrete codebook으로부터 표현된 Image를 학습합니다. 무엇보다도, 우리는 이미지를 아래의 수식에 관한 Codebook을 통하여 생성합니다.

non-differentiable quantization Backpropagation은 Decoder와 Enocder에 연산을 진행하고, Gradient estimator에 의하여, 모델과 코드북을 optimization하는 것이 가능합니다.

Learning a Perceptually Rich Codebook

Transformer를 사용해서, Image를 latent image constituents로 표현하기 위해서는, compression을 극복하고, rich codebook을 학습하는 것이 요구됩니다. 그리하여 우리는 VQ-GAN을 제안합니다. VQGAN은 discrimator와 perceptual loss를 상용하여, increased compression rate를 유지합니다. 

L_rec에 사용된 것을 L2 lossfmf perceptual loss로 대체하고, discriminator D기반의 patch절차를 adversarial training procedure에 활용합니다.

모든 정보로부터, context를 통합하기 위해서, 우리는 single attention layer를 lowest resolution에 도입합니다. 이러한 학습방법은 sequence length를 감소시키고, 강력한 Transformer를 만들게 합니다.

Learning the Composition of Images with Transformers

Latent Transformers

Encoder 와 Generator를 사용함으로써, 우리는 Encoding의 codebook을 생성하는 것이 가능합니다. 더 구체적으로는, quantized encoding image는 z로 표현될 수 있으며, sequence와 동일합니다.

Conditioned Synthesis

많은 이미지 합성 작업에서, user는 추가적인 정보를 제공함으로써, generation process를 조절하는 것이 가능합니다. 이러한 정보는 image class의 전반적인 single label으로 표현되거나, 이미지 그 자체가 될 수 있습니다.

Generating High-Resolution Images 

Megapixel regime로 이미지를 생성하기 위해서는, 우리는 patch wise를 사용하고, training 동안 가능한 최대한의 patch 크기를 사용해야 합니다. Image를 Sampling 하기 위해서, 우리는 Transformer를 sliding-window로 사용합니다. VQGAN은 문맥적 정보를 충분히 파악할 수 있을 뿐만아니라, spatially invariant 또는 Spatial conditioning information을 이용하는 것이 가능합니다.

Experiments

Conclusion

본 논문은 이전의 Low-resolution images를 transformer로 사용하는 것에 대한 어려움을 다룹니다. 본 논문에서는 이미지의 풍부한 정보를 다루고 model의 image를 Pixel로 곧바로 대응시키는 것에 대한 어려움을 극복하는 법을 설명합니다. CNN architecture와 Transformer Architecture를 동시에 활용하여 모델링하는 것은 각 모델의 특징의 장점을 살릴 수 있으며, high resolution images를 생성하는 것이 가능합니다.  

 

 

https://devocean.sk.com/blog/techBoardDetail.do?ID=164090

Comments