일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- algorithm
- web
- pytorch
- FGVC
- classification
- clean code
- CV
- Front
- FineGrained
- nerf
- 자료구조
- SSL
- ML
- Python
- GAN
- PRML
- REACT
- computervision
- Vision
- Meta Learning
- 딥러닝
- 3d
- 알고리즘
- Depth estimation
- math
- cs
- nlp
- dl
- 머신러닝
- Torch
- Today
- Total
목록Data Science/Self Supervised Learning (26)
KalelPark's LAB
* 추후 업데이트 예정입니다.. Abstract 최근, Contrastive Learning 과 Non-Contrastive Learning으로 접근법이 나눠 연구가 되고 있다. 새로운 접근법을 위해 2개의 친숙한 방법간의 차이가 논의되고 있지만, 우리는 이론적 유사성에 더 초점을 두고 논의합니다. 대수적으로 관련되어 표현될 수 있고, 제한된 가정 하에서 동등한 것으로 나타낼 수 있는 contrastive 와 covariance에 대해서 설계함으로써, 우리는 어떻게 2가지 방법이 유사한지 보여줍니다. 우리는 더 나아가 대중적인 방법에 대해서 연구하고, 다양한 방법을 도입하여 이론적 결과를 현재의 관행과 연관시키고 다운스트림 성능에 대한 디자인에 따른 영향을 보여줍니다. 동등성 결과에 동기부여를 함으로써,..
Abstract 본 논문에서는 data-augmentaion에 없이, highly semantic image repreentations learning에 대한 접근법을 제시합니다. Image로부터, self-supervised learning에 대한 non-generative approach인 Joint-Embedding Predictive Architecture(I-JEPA)를 설명합니다. 아이디어의 핵심은, Single Context Block으로부터, 같은 이미지 내 다양한 target block의 representation을 예측합니다. 우선, sufficiently large scale 과 함께 target block을 sampling합니다. 그리고, sufficiently informative..
Abstract ITPN의 경우, MIM과 downstream recognition tasks 간의 관계의 격차를 최소화하도록, backbone과 neck을 동시에 pre-training을 진행합니다. 본 논문에서의 주된 기여는 2가지 입니다. 1) pretraining stage 내, feature pyramid를 투입합으로써, recognition task 와 reconstructure task를 통합합니다. 2) Multi-stage supervision을 feature pyramid로 제공하는 Masked feature Modeling (MFM)를 활용하여, Masked Image Modeling (MIM)을 보완합니다. ITPN의 경우, upstream pre-training 과 downstre..
Abstract 최근 거대한 데이터셋으로의 NLP의 성공이 Computer Vision에도 유사한 방식으로 혁신을 보여주고 있습니다. 이러한 방법은, 선별된 데이터셋에서만 사용이 가능합니다. 우리는 기존 방식을 재검토하고, 다양한 기술을 결합하여 데이터 및 모델의 크기 측면을 확장합니다. 대부분 기술적 기여는 학습의 규모를 안정화하거나 가속화를 진행합니다. Introduction task에 구애받지 않은 표현력 학습을 하는 것은 NLP에서는 기본이 되어왔습니다. NLP에서의 영향을 받아, Vision에도 상당한 영향을 미치고 있습니다. 대부분 유망한 노력은 text-guided pretraining에 초점이 되어왔으며, feature를 학습하는데 상당한 기여를 해왔습니다. Caption은 이미지의 풍부한..
Abstract 본 논문에서는 Self-supervised Learning이, ConvNet과 비교하여, ViT에서의 두드러진 특징이 있는지 의문을 제시합니다. ViT에 SSL을 적용함으로써, 2가지를 관찰합니다. 1) Supervised에서 ViT 혹은 ConvNet에서의 Semantic segmentation에 대한 정보를 남기지 않지만, Self-supervised Learning에서의 ViT에서는 명시적으로 남깁니다. 2) 이러한 feature들은 K-NN classifier에서 높은 성능을 보이며, small ViT에서의 상당한 성능을 보입니다. 또한 본 논문에서는 Momentum Enocder, Multi-crop의 중요성을 강조합니다. Introduction NLP에서 영감을 받아, VIT..
Abstract 기존 Transformer는 global perspective로부터 learning representation 과 high-level feature을 고려한 반면, 본 논문에서는 새로운 방법론인 Masked Self-supervised Transformer 접근법을 설명합니다. 위 방법은 local context를 포착하면서, semantic information을 보존하는 것이 가능합니다. 본 논문에서는 multi-head attention map에서 masked token strategy를 사용합니다. 이러한 방법은 이미지의 Spatial information을 보존하면서, dense prediction task에서 유용합니다. Introduction Yann LeCun said, 만..
Abstract 최근 딥러닝에서모델을 계속해서 발전시키고자 한다면 annotated data가 많이 필요합니다. 이에 대한 한가지 해결방법은 active learning을 하는 것입니다. active learning이란, labeling되지 않은 데이터를 사람이 데이터를 생성하는 것을 말합니다. 본 논문에서는 annotate data를 표기합니다. 본 논문에서는, task에 구애받지 않고, 딥러닝 모델에 효과적으로 적용할 수 있는 새롭고, 단순한 방법을 제기합니다. "loss prediction module"이라고 불리는, small parameteric module을 붙이고, unlabel data의 target에 대한 loss가 어느정도인지 예측하도록 학습합니다. 이러한 묘듈은 모델이 잘못된 예측을 ..
Abstract Masked Imaging에 관련해서 설명. 동일한 이미지 내, 상당히 매우 많은 부분을 Patch로 생성하는데, 이러한 방법은 상당히 많은 부분이 매우 높은 상관관계를 나타내며, 마스킹 된 부분이 상당히 많이 중복됩니다. 우리는 이러한 중복성이 기존 MIM 기반의 방법들을 무시하고, SSL에서 무시할 수 없는 오버헤드를 야기합니다. 본 논문에서는 compacting token과 단지 필요한 정보만을 남기기 위한 방법인 Progressively Compressed AutoEncoder를 설명합니다. 본 논문에서, 우리는 토큰 시퀀스의 평균을 가진 각 토큰 간의 간단하지만 효과적인 유사성 메트릭을 통하여, 이미지에서 중복 토큰을 식별하고자 합니다. Introduction 본 논문에서는 Re..