일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- PRML
- 알고리즘
- nerf
- 머신러닝
- 딥러닝
- Torch
- FineGrained
- cs
- SSL
- GAN
- dl
- math
- CV
- Python
- 자료구조
- REACT
- ML
- nlp
- Depth estimation
- FGVC
- classification
- algorithm
- web
- computervision
- 3d
- Front
- clean code
- pytorch
- Meta Learning
- Vision
- Today
- Total
목록SSL (21)
KalelPark's LAB
Abstract 본 논문에서는 data-augmentaion에 없이, highly semantic image repreentations learning에 대한 접근법을 제시합니다. Image로부터, self-supervised learning에 대한 non-generative approach인 Joint-Embedding Predictive Architecture(I-JEPA)를 설명합니다. 아이디어의 핵심은, Single Context Block으로부터, 같은 이미지 내 다양한 target block의 representation을 예측합니다. 우선, sufficiently large scale 과 함께 target block을 sampling합니다. 그리고, sufficiently informative..
Abstract ITPN의 경우, MIM과 downstream recognition tasks 간의 관계의 격차를 최소화하도록, backbone과 neck을 동시에 pre-training을 진행합니다. 본 논문에서의 주된 기여는 2가지 입니다. 1) pretraining stage 내, feature pyramid를 투입합으로써, recognition task 와 reconstructure task를 통합합니다. 2) Multi-stage supervision을 feature pyramid로 제공하는 Masked feature Modeling (MFM)를 활용하여, Masked Image Modeling (MIM)을 보완합니다. ITPN의 경우, upstream pre-training 과 downstre..
Abstract 최근 거대한 데이터셋으로의 NLP의 성공이 Computer Vision에도 유사한 방식으로 혁신을 보여주고 있습니다. 이러한 방법은, 선별된 데이터셋에서만 사용이 가능합니다. 우리는 기존 방식을 재검토하고, 다양한 기술을 결합하여 데이터 및 모델의 크기 측면을 확장합니다. 대부분 기술적 기여는 학습의 규모를 안정화하거나 가속화를 진행합니다. Introduction task에 구애받지 않은 표현력 학습을 하는 것은 NLP에서는 기본이 되어왔습니다. NLP에서의 영향을 받아, Vision에도 상당한 영향을 미치고 있습니다. 대부분 유망한 노력은 text-guided pretraining에 초점이 되어왔으며, feature를 학습하는데 상당한 기여를 해왔습니다. Caption은 이미지의 풍부한..
Abstract 본 논문에서는 Self-supervised Learning이, ConvNet과 비교하여, ViT에서의 두드러진 특징이 있는지 의문을 제시합니다. ViT에 SSL을 적용함으로써, 2가지를 관찰합니다. 1) Supervised에서 ViT 혹은 ConvNet에서의 Semantic segmentation에 대한 정보를 남기지 않지만, Self-supervised Learning에서의 ViT에서는 명시적으로 남깁니다. 2) 이러한 feature들은 K-NN classifier에서 높은 성능을 보이며, small ViT에서의 상당한 성능을 보입니다. 또한 본 논문에서는 Momentum Enocder, Multi-crop의 중요성을 강조합니다. Introduction NLP에서 영감을 받아, VIT..
Abstract 기존 Transformer는 global perspective로부터 learning representation 과 high-level feature을 고려한 반면, 본 논문에서는 새로운 방법론인 Masked Self-supervised Transformer 접근법을 설명합니다. 위 방법은 local context를 포착하면서, semantic information을 보존하는 것이 가능합니다. 본 논문에서는 multi-head attention map에서 masked token strategy를 사용합니다. 이러한 방법은 이미지의 Spatial information을 보존하면서, dense prediction task에서 유용합니다. Introduction Yann LeCun said, 만..
Abstract 본 논문은 label 없이, model을 학습하는 Self-Supervised Learning을 분석합니다. 본 논문은 3가지 method를 비교합니다. (BiGAN, RotNet, DeepCluster). 데이터가 상당히 많더라도, Supervision과 같이 학습하는 것은 불가능합니다. 1) 본 논문은 초기 layer에서는 natural images의 통계에 대한 정보를 갖는 것이 힘들다는 것을 설명하고, 2) self-supervision에서는 그러한 표현력을 Self-supervision을 통해서, 학습될 수 있다고 설명합니다. 그리고, 대규모 데이터셋을 사용하는 것 대신 합성 변환을 활용하여, low-level statistics를 포착할 수 있습니다. Introduction 본..
Abstract 본 논문은 Generative, Representation을 동시에 활용하는 MAsked Generative Encoder(MAGE)를 소개합니다. 본 아이디어의 핵심은 마스크된 이미지를 활용하여, 이미지를 Generative 하는 방법과 Representation 2가지 모두 학습할 수 있습니다. MAGE는 입력 및 출력에서 GAN에 의한 토큰을 사용하여, Masking과 결합합니다. Contrastive loss를 Encoder에 추가함으로써, 표현력을 극대화합니다. Introduction Generative 와 recognition task는 visual과 data 내 semantic 정보를 학습해야 합니다. Generation은 high-level semantics과 low-lev..
Problem SSL로 Batchsize를 최대한 늘려 학습하고자 하는데, 잘 안되어 분산처리를 봤다. 사실 연관은 없는 것 같다.. (불가능.ㅠ) 결론 저희 연구실에서는 SSL을 하려면,TeslaV100을 하나 장만해야 함을 느꼈습니다.. import os local_rank=int(os.environ["LOCAL_RANK"]) import torch import torch.distributed as dist from torch.utils.data.distributed import DistributedSampler import torchvision.transforms as T from torch.utils.data import DataLoader from torchvision.models import ..