KalelPark's LAB

[ 논문 리뷰 ] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture 본문

Data Science/Self Supervised Learning

[ 논문 리뷰 ] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

kalelpark 2023. 5. 11. 10:37

Abstract

본 논문에서는 data-augmentaion에 없이, highly semantic image repreentations learning에 대한 접근법을 제시합니다.
Image로부터, self-supervised learning에 대한 non-generative approach인 Joint-Embedding Predictive Architecture(I-JEPA)를 설명합니다. 아이디어의 핵심은, Single Context Block으로부터, 같은 이미지 내 다양한 target block의 representation을 예측합니다. 우선, sufficiently large scale 과 함께 target block을 sampling합니다. 그리고, sufficiently informative context block을 사용합니다. 

Introduction

본 논문에서는, 어떻게 Image transformation을 통한 knowledge encoded 없이 self-supervised representation semantic level을 개선할 수 있을지 연구합니다. 그리하여, 본 논문에서는 Joint-Embedding Predictive architecture(I-JEPA)를 설명합니다. I-JEPA의 아이디어는 Abstract representation space 내, 잃은 정보를 예측하는 것입니다. pixel/token space에서 generative methods를 예측하는 것과 비교하여, I-JEPA는 불필요한  Pixel-level detail를 제거하고, 요약된 prediction target을 예측합니다. 이러한 핵심 아이디어의 토대가 되는것은 Multi-block masking strategy라고도 볼 수 있습니다. 특히, 본 논문에서는 informative context block을 사용하여 large target block을 예측하는 것의 중요성을 입증합니다. 본 논문에서는 3가지를 실험적으로 증명합니다.

 

    1) view augmentations 사용 없이, strong off-the-shelf representations을 학습하는 것이 가능합니다. 또한, 이러한 방법은 기존
        의 방법과 비교하였을 때, 상당한 성능 향상을 보여줍니다.

 

    2) I-JEPA는 view-invariant pretraing 접근법과 비교 시 경쟁력 있는 성능을 보여주고, object counting과 depth prediction에서
         low-level performance를 보여줍니다.

 

    3) I-JEPA는 확장 가능하고, 효율적입니다. 또한, 학습하는데 시간이 이전에 비해서 훨씬 빠릅니다. 

Background

Self-Supervised Learing은 input사이의 관계에 대한 정보를 학습하는 접근법입니다. 이러한 방법은 Self-Supervised가 호환되지 않는 입력에 높은 에너지를 할당하고 호환 가능한 입력에 낮은 에너지를 할당하는 에너지 기반 모델(EBM)의 프레임워크를 사용합니다.

 

Joint-Embedding Architecture

Invariace-based pretraining은 양립가능한 input에 대한 similar embedding output을 학습하는 Joint-Embedding Architecture를 활용할 시, EBMs framework를 사용합니다. (해당 부분에서는 Contrastive Learning과 관련하여, 설명을 하고 있음)

 

Generative Architecture

해당부분에서는 Masked AutoEncoder와 관련하여, 설명을 하고 있습니다.

Joint-Embedding Predictive Architecture

Joint-Embedding Predictive Architecture는 Generative Architecture와 상당히 유사합니다. 하지만, loss function의 핵심적인 차이는, Embedding space 내에서만 적용 가능하다는 것입니다. JEPAs는 compatible signal x로부터, embedding signal y를 예측하도록 학습합니다. 본 논문에서 제안하는 방법론은, Masking Strategy를 사용하여, Image의 context 내에서, architecture의 instantiation을 제공합니다. 

Method

전반적인 I-JEPA의 방법론은, Context block을 고려하여, Same image내에서 various target block의 representation을 예측합니다. Context-Encoder, Target-Encoder, predictor 모두 Vision Transformer를 사용합니다. ViT는 transformer의 stack으로 구성되어 있습니다. 또한, Self-Attention의 구성은 fully-connected MLP에 의하여, 구성됩니다. 우리의 Encoder/predictor Architecture는 MAE 기반의 방법론을 사용합니다. 하지만, 핵심적인 차이는 I-JEPA는 non-generative이고, representation space내에서 prediction을 생성합니다. 

 

Target

I-JEPA는 image block의 representation과 대응되는 target을 목표로 합니다. input image y를 고려하여, 우리는 N개의 Patch로 전환합니다. 이후, target-encoder에 input으로 활용하여, 대응되는 patch-level의 representation을 학습합니다. Our loss를 얻기 위하여, 우리는 target representation으로 block들을 randomly하게 Masking하는 전략을 사용합니다. Target blocks는 input이 아니라, target-encoder의 ouput의 masking함으로써 정보를 파악하는 것이 가능합니다. 주된 방향은 high semantice target representation을 이해하는 것이 상당히 중요합니다. 

 

Context

I-JEPA의 목표는 single context block으로 target block representation을 예측하는 것이다. I-JEPA 내 맥락의 정보를 얻기 위해서, 특정한 비율로 random scale을 image에 한후, single block x에 sampling을 적용합니다. Contxt block으

로부터 독립적으로 target block이 Sampling이 되었기에 상당히 Overlap이 될 수 있습니다.

Experiments

Conclusion

본 논문에서는 data augmentation 없이, semantic image representation 접근법을 제시합니다. 또한 우리는 representation sapce의 공간을 예측하도록 학습을 합니다. I-JEPA는 pixel reconstructure method를 빠르게 학습할 뿐 아니라, high semantic level의 표현을 학습합니다. 

Comments