KalelPark's LAB

[ 논문 리뷰 ] ON THE DUALITY BETWEEN CONTRASTIVE AND NON- CONTRASTIVE SELF-SUPERVISED LEARNING (추후 업데이트 예정) 본문

Data Science/Self Supervised Learning

[ 논문 리뷰 ] ON THE DUALITY BETWEEN CONTRASTIVE AND NON- CONTRASTIVE SELF-SUPERVISED LEARNING (추후 업데이트 예정)

kalelpark 2023. 5. 12. 09:01

* 추후  업데이트 예정입니다..

Abstract

 최근, Contrastive Learning 과 Non-Contrastive Learning으로 접근법이 나눠 연구가 되고 있다. 새로운 접근법을 위해 2개의 친숙한 방법간의 차이가 논의되고 있지만, 우리는 이론적 유사성에 더 초점을 두고 논의합니다. 대수적으로 관련되어 표현될 수 있고, 제한된 가정 하에서 동등한 것으로 나타낼 수 있는 contrastive 와 covariance에 대해서 설계함으로써, 우리는 어떻게 2가지 방법이 유사한지 보여줍니다. 우리는 더 나아가 대중적인 방법에 대해서 연구하고, 다양한 방법을 도입하여 이론적 결과를 현재의 관행과 연관시키고 다운스트림 성능에 대한 디자인에 따른 영향을 보여줍니다. 동등성 결과에 동기부여를 함으로써, 우리는 낮은 성능의 SimCLR을 연구하고, 어떻게 VICReg와 일치시킬 수 있는지 보여주며, 알려진 baseline을 개선시킵니다. 또한 본 논문에서는 Contrastive 방법과 Non-Contrastive method 각각 large batch 및 dimension이 필요하다는 일반적인 가정에 도전합니다. 서로 다른 SOTA 방법을 통합하는 것이 자가 지도 학습에 대한 더 나은 이해를 구축하는 중요한 방향이라는 것을 보여줍니다.

Introduction

 기존에는 Contrastive Learning과 Non-Contrastive Learning이 매우 다른 것처럼 보이고, 그렇게 설명되었지만, 우리는 이론적인 관점과 경험적인 관점 둘 사이의 유사성을 살펴보고, 밀접한 관계가 있음을 보여줄 것을 제안합니다. 우리는 non-contrastie method 기반의 covariance에 초점을 맞추고, Sample들 사이의 대조가 아니라, Embedding dimension간의 Contrastive가 된다는 것을 보여줍니다. 그러므로, Dimension contrastive methods를 소개하고 original contrastive method를 sample contrastive method라고 부릅니다. 둘 사이의 유사성을 보여주기 위해서, 우리는 Contrastive 와 Non-Contrastive criterion방법을 정의합니다. 그리고, Embedding 정규화에서 두 가지의 동등성을 보여줍니다. 우리는 이러한 기준을 일반적인 방법과 연관성을 짓고, 그들 사이의 연결을 강조하고 샘플 대비 및 차원 대비 명명법의 사용에 동기를 부여합니다. 이후, 우리는 VICReg와 SimCLR간의 변형 기법을 소개합니다. 
본 논문의 주된 기여는 다음과 같습니다. 

    1)   본 논문에서는 several SOTA sample-Contrastive 와 dimension Contrastive Method간의 유사성을 통합하려고 노력하
          고, 경험적 성능으로 격차를 완벽히 가까이 합니다. 

    2)  본 논문에서느 sample, dimension contrastive method representation에 대한 2가지 기준을 소개합니다. 또한 우리는  

         이중 정규화된 동등함을 보여주고, 그것들의 이론적 유사성을 강조하면서, 인기 있는 방법들을 연관시킵니다.

    3)  우리는 loss function의 정확한 구성요소의 실제 영향을 연구하기 위해 VICReg 와 SimCLR사이에 보간하는 방법을 소개합니다.

    4)  동등성에 동기 부여 받아, 우리는 한 곳에 기인된 장점이 다른 곳으로 이동할 수 있음을 보여줍니다. 우리는 SimCLR의
          performance를 VICReg와 Matching함으로써 개선하고, VICReg을 개선하여, SimCLR과 같이 embedding dimension을 견
          고하게 만듭니다.

Equivalence of the Contrastive and Non-Contrastive Criterion

우리의 방법론은 Embedding에만 의존하고, Embedding을 얻는데 사용되는 모델에는 의존하지 않으며, data modality에도 의존하지 않습니다. 연구된 모든 방법은 joint embedding framework에 배치되어, 이미지에만 적용됩니다. 각각의 모델의 파라미터가 동일할 때, 두 분기에 동일한 증강 분포를 사용할 때, 근본적인 차이가 없으므로, 분석을 덜 복잡하게 만들기 위해 이러한 단순화를 수행합니다. 우리는 이러한 적읍을 통하여 Contrastive 와 Non-Contrastive를 정확하게 정의하는 것으로 시작합니다. 이러한 기준은 2개의 class 내 method를 분류하기 위해 사용됩니다. 

Invariance Criterion

우리는 기준의 정규화 부분에 초점을 맞추고 있지만, 그것만으로 최적화가 되지 않는다는 점에서 주목할 필요가 있습니다. 일반적으로 동일한 이미지의 2 view에 대해 동일한 표현을 생성하는 것을 목표로하는 불변 기준과 결합합니다. Invariance criterion은 일반적으로 유사도를 위해서 사용됩니다. 만약 정규화 Embedding을 사용하는 경우, 최적화의 관점에서 둘다 동등하므로, regularization에 초점을 두어 연구할 필요가 있습니다. 

Sample-Contrastive Learning은 서로 다른 이미지 쌍간의 유사성에 penalty를 줄 수 있는 반면에, Non-Contrastive Learning은 Embedding의 공분산 행렬의 대각선이 아닌 항에 불이익을 주는 것으로 볼 수 있습니다. SimCLR과 DCL의 경우 L_c와 쉽게 연관짓는 것이 불가능합니다. 그러한 이유는 Sqaure과 absolute value에 의존하기 보다는 Cosine similarity 의존하기 때문이다. L_c의 경우 Embedding 또는 dimension orthogonal 쌍을 만드는 것을 목표로 하지만, SimCLR과 DCL의 criterion은 이와 정반대 이기 때문입니다. SimCLR과 DC의 기준에 대한 Contrastive와 Non-Contrastive 사이의 이중성에서, L_c를 모든 음의 쌍에서 직교를 하기 위해 Sample로써 많은 차원이 필요하고, 2개 이상의 Vector가 반대되는 것이 불가능 하기 때문에, 현실적으로 둘 다 만족시키는 것이 불가능합니다.  

L_c가 모든 Negative pairs를 orthogonal을 위해 Sample 만큼 많은 Dimension이 필요하고, 2개 이상의 벡터가 반대가 될 수 없기 때문에 두 가지 모두 실제로 완벽하게 만족할 수 없습니다. 그럼에도 불구하고, SimCLR과 DCL의 기준은 정확하게 L_c의 목표인 null 평균을 갖는 음의 쌍의 dot product로 이어질 것입니다.  이것은 DCL과 SimCLR의 원래 공식이 완벽하게 맞지는 않지만, 이론적 프레임에서 여전히 우리가 연구하는 다른 방법과 유사한 결과로 이어질 수 있음을 보여줍니다. 이러한 결과를 보완하기 위해 본 논문에서는 SimCLR의 변형인 SimCLR_sq 와 SimCLR_abs를 제시합니다. 주된 결론은 GramMatrix의 대각이 아닌 행렬들의 분포는 모든 이전의 방법론과 유하고, 0 주위의 집중된 값을 지니고 있습니다. 우리의 결과는 임베딩 자체에 대한 어떤 가정에도 의존하지 않는다는 것에 주목할 필요가 있습니다. (하단 부분 아직 이해를 못했습니다..)

Influence of Normalization

두 기준간의 차이는 행렬 행 및 열 규범에 있으며, 대부분 한 방향으로 정규화되어 설명됩니다. SimCLR의 경우 embedding 사이의 similarity measure 로써 consine distance에 의존하기에, 이러한 방법은 normzalized embedding이라고 할 수 있습니다. 마찬가지로 스펙트럼 대비 손실은 조정된 매개 변수 µ를 사용하여 반경 µ의 공에 임베딩을 투영합니다. 이는 임베딩이 손실 함수를 계산하기 전에 정규화됨을 의미합니다.

Experiments

Conclusion

기존의 분석을 통하여, 우리는 Sample-Contrastive와 dimension-contrastive method이 Embedding Matrix의 행과 열 정규화까지 동등한 기전으로 효과적으로 최소화되기 때문에, 밀접한 관련이 있는 목표를 가지고 있음을 알 수 있습니다. 이것은 우리가 경험적으로 연구한 행동에 대한 이중성을 보여줍니다. VICReg의 변화의 길이를 통하여, 우리는 SSL loss function을 design하고, 성능에 영향이 없음을 발견하고, VICReg의 임베딩 차원에 대한 견고성을 증가시킵니다. 또한 우리의 이론전 발견을 통하여, SimCLR내에서 ample hyperparameter tunning을 보여주고, VICReg와의 격차를 줄이도록 합니다. 본 논문에서 한가지만 기억해야 한다고 한다면, Dimension-Contrastive 와 Sample Contrastive는 동일한 동전의 양면이라는 것입니다.

Comments