KalelPark's LAB

[ 논문 리뷰 ] Unsupervised Learning of Visual Features by Contrasting Cluster Assignments 본문

Data Science/Self Supervised Learning

[ 논문 리뷰 ] Unsupervised Learning of Visual Features by Contrasting Cluster Assignments

kalelpark 2023. 2. 2. 08:32

GitHub를 참고하시면, CODE 및 다양한 논문 리뷰가 있습니다! 하단 링크를 참고하시기 바랍니다.
(+ Star 및 Follow는 사랑입니다..!)

https://github.com/kalelpark/Awesome-ComputerVision

 

GitHub - kalelpark/Awesome-ComputerVision: Awesome-ComputerVision

Awesome-ComputerVision. Contribute to kalelpark/Awesome-ComputerVision development by creating an account on GitHub.

github.com

Abstract

Contrastive Learning을 활용함으로써, 비지도학습은 지도학습간의 격차를 상당히 줄였다.  이러한 Contrastive methods는 온라인에서 부분적으로 작동하고, 쌍의 이미지 feature가 반드시 있어야만 하는 단점이 있습니다. 본 논문에서는, online Algorithm인 SwAV를 제시합니다.

 

특히 우리의 방법론은 동일한 이미지의 서로 다른 확장을 위해 성상된 클러스터 간의 일관성을 강화하면서 데이터를 클러스터링 합니다.

우리는 swapped prediction mechanism을 활용합니다. 위 방식은 다른 view의 feature로부터 데이터를 파악하는 것이 가능합니다. 

우리의 방법론은 large, small batches에서 작동할 뿐만 아니라, 제한되지 않은 데이터에서도 작동합니다.

 

이전의 Contrastive method와 비교하여, 우리의 방법론은 상당히 효율적입니다. 추가로, 우리는 새로운 data augmentation 전략을 활용합니다. 

Introduction

Unsupervised Learning과 self supervised Learning은 일반적인 annotation없이 feature를 얻는 것을 목표로 하고 있으며, Supervised pretraing과의 격차를 줄이고 있다. 

 

Contrastive Losssms Image representation을 명시적으로 비교하고, 서로 다른 이미지의 representation는 멀리하는 반명에 동일한 이미지는 표현을 가깝게 만듭니다. 대규모 데이터 세트에서 모든 쌍들을 비교하는 것은 실용적이지 않기 때문에 대부분의 구현은 비교할 수 있는 수 조절하여, loss로 사용합니다. 

 

본 논문에서는, 이전의 방법론과 다른 방법을 제시하고, 같은 이미지로부터 얻은 정보로부터 일관성을 강화하는 cluster assignment 방법을 제시합니다. 우리는 feature를 같은 이미지의 multiple view 내에서 Swapping Assignments를 함으로써 학습합니다.
Swapping Assignment Multiple View(SwAV)라고 부릅니다. SwAV의 방법론을 사용한다면, large batchsize가  필요하지 않을 뿐만 아니라, large memory bank가 없습니다. 또한 본 논문에서는, multi-crop을 제시합니다. multi-crop은 training동안 memory혹은 computational이 추가적으로 필요하지 않고, image view의 숫자를 증가시킵니다. 

 

본 논문에서의 기여하는 것.

1. 우리는 확장가능한 online clustering loss를 제안합니다. online clustering은 Contrastive Learning에 비하여
    large memory bank가 필요 없습니다.

2. 우리는 multi-crop 전략을 도입합니다. multi-crop 방법은 image의 view를 증가시킬 뿐만 아니라,
    추가적인 계산적인 비용이 필요하지 않습니다.

Related Work

Instance and contrastive Learning

 

 

Clustering for deep representation Learning

 

 

Handcrafted pretext task

Method

우리의 목표는 Supervision없이, online fashion내 visual feature를 학습하는 것이다. 그러한 효과로, 우리는 self-supervised method 기반하에 online clustering 방법론을 제시합니다. 일반적인 클러스팅 방법론들은 clustered된 전체 데이터의 image feature를 cluster사이로 대안하며 학습을 진행하기에 offline이다. 불행하게도, 이러한 방법은 clustering에 필요한 이미지 기능을 계산하기 위해 데이터 세트를 여러 번 통과하는 것이 요구된다는 점에서 online learning에 적합하지 않습니다.  본 논문에서는, 같은 이미지의 다른 augmentation으로부터 clustering 함으로써 일관성을 강화하는 방법을 제안합니다. 이 해결책은 code를 대상으로 고려하지 않고, 동일한 이미지로부터 일간된 mapping만을 시행하기 때문에 contrastive instance learning으로부터 영감을 받습니다.

우리의 방법은 특징 대신 클러스터 할당을 활용하여, 여러 이미지를 비교하는 것으로 해석될 수 있습니다. 우리는 image의 augment 된것으로부터 clustering을 진행하고, 같은 이미지의 다른 augmentation으로부터 clustering을 예측합니다. 다른 augmentation이 적용된 2개의 이미지를 고려하였을 때, K prototyes으로 feature를 matching함으로써 code를 계산합니다.

직관적으로 우리의 방법론은 feature 사이에서 비교를 통하여 알 수 있습니다. 만약에 2개의 feature가 다른 정보를 capture한다면, 이러한 방법은 다양한 feature로부터 예측을 하는 것이 가능합니다.

Online Clustering

각각의 이미지는 x로부터 부터 augmented view xt로 변환될 수 있습니다. augmented view는 비선형 매핑을 활용함으로써 vector를 표현하는 것이 가능합니다.이후 학습가능한 c로 mapping함으로써, prototype을 업데이트할 뿐만 아니라, 표현하게 됩니다.


Swapped prediction problem

Computing codes online

Experiments

좌측의 표의 경우 SelfSupervised Learning을 진행하고, training을 하였을 때 성능이다. 우측의 표의 경우, Semi Self supervised learning을 진행한 후, 성능을 측정했을 때이다.

많은 Epoch이 필요하다는 것을 보여주지만, 성능적인 측면에서는 SwAV에 Multi Crop을 적용하였을 때, 상당한 성능향상을 가져옴을 보여주는 그래프임을 알 수 있다.

Disscusion

Self Supervised Learning은 계속해서 Supervised Learning과 비교되고 있을 뿐만 아니라, transfer learning의 성능을 뛰어넘고 있다. 특히, 모델은 supervised task를 위해 개발되었습니다. 

 

참고

https://arxiv.org/abs/2006.09882

 

Unsupervised Learning of Visual Features by Contrasting Cluster Assignments

Unsupervised image representations have significantly reduced the gap with supervised pretraining, notably with the recent achievements of contrastive learning methods. These contrastive methods typically work online and rely on a large number of explicit

arxiv.org

 

Comments