KalelPark's LAB

[ 논문 리뷰 ] MAGE: MAsked Generative Encoder to UnifyRepresentation Learning and Image Synthesis 본문

Data Science/Self Supervised Learning

[ 논문 리뷰 ] MAGE: MAsked Generative Encoder to UnifyRepresentation Learning and Image Synthesis

kalelpark 2023. 3. 28. 17:36

Abstract

    본 논문은 Generative, Representation을 동시에 활용하는 MAsked Generative Encoder(MAGE)를 소개합니다.

    본 아이디어의 핵심은 마스크된 이미지를 활용하여, 이미지를 Generative 하는 방법과 Representation
    2가지 모두 학습할 수 있습니다. MAGE는 입력 및 출력에서 GAN에 의한 토큰을 사용하여, Masking과 결합합니다.

    Contrastive loss를 Encoder에 추가함으로써, 표현력을 극대화합니다.

Introduction

    Generative 와 recognition task는 visual과 data 내 semantic 정보를 학습해야 합니다. Generation은 high-level semantics과
    low-level visual details를 학습하기에, 상당한 이익이 됩니다. 이와 반대로, Representation은 rich semantic guidance를 제공함
    으로써 상당한 이익을 가져옵니다. 하지만, Computer vision에서는 image generator와 representation learning을 2가지 동시에
    채택한 방법이 없습니다. 

 

    우리는 통일한 방법을 가지고, 의문을 제기합니다. 우리가 제안한 방법의 핵심은 Reconstructioning은 100% masked된 부분을 학습
    하는 관점이고, representation learning은 "encoding"의 관점으로 볼 수 있습니다.

    

    variable masking ratio를 활용하여, unifed architecture를 생성하는 것이 가능합니다.

    high ratio에서는 Generative된 부분을 학습하고, low ratio에서는 Encoding된 것을 학습하는 방법이다.

      본 논문은 Introduction에서의 high-quality를 이미지로부터 얻는 방법을 설명합니다. MAGE는 현실적인 이미지를 생성하고, 이미           지로부터 높은 quality를 학습합니다. 게다가, pre-training동안 variable masking을 사용하기에,
      MAGE는 semantic tokens을 사용합니다. Representation learning을 위해서,  token을 사용하게 되면, 세부 정보를 잃지 않는다
      는 면에서 상당한 장점이 될 수 있습니다.

 

      Contribution 

           - 가변적인 masking ratio와 single token을 사용하여, representation learning을 사용함으로싸 generative model과
              representation learning을 합한 새로운 방법론인 MAGE를 제시합니다. 

           - MAGE를 활용하여, SOTA를 달성하였습니다.

           - MAGE는 few-shot learning, linear probing, transfer learning down stream에서도 높은 성능을 보여줍니다.

Method

    MAGE는 generative와 representation learning을 통합하여 학습하는 방식을 활용합니다. 이러한 방식을 활용하하기 위해서,

    우리는 VQGAN을 활용하여, 입력 이비지를 semantic token으로 quantize합니다. 이후 우리는 무작위로 0.5 부터 1까지 masking을
    합니다. 이후, Encoder-Decoder 기반의 구조를 사용합니다. 우리는 Encoder부분에서는 Contrastive Loss를 활용합니다.

Tokenization

tokenizer로 활용하기 위해, semantic token의 순서로 input image를 토큰화합니다. tokenizer는 VQGAN과 같이 활용됩니다.

이러한 방법은 이후의 representation Learning과 Contrastive Learning에서 상당한 도움이 됩니다.

Masking Strategy

generative modeling과 representation learning간의 격차를 줄이기 위해, Masking 전략을 같이 활용합니다. 우리는 0.5에서 1사이로 무작위로 Masking을 진행합니다. 

Reconstructive Learning

Contrastive Co-Training

       - Balance 조절       

Experiments

Conclusion

본 논문에서는 masking 방법에서 image generation 방법과 representation learning을 단순하게, 동시에 학습하도록 합니다.

Reference

https://arxiv.org/abs/2211.09117

 

MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis

Generative modeling and representation learning are two key tasks in computer vision. However, these models are typically trained independently, which ignores the potential for each task to help the other, and leads to training and model maintenance overhe

arxiv.org

https://github.com/Pseudo-Lab/OpenLab_SSL

 

Comments