| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- dl
- CV
- ML
- nlp
- nerf
- REACT
- Torch
- SSL
- math
- Front
- clean code
- 자료구조
- Vision
- FineGrained
- PRML
- algorithm
- cs
- 3d
- rl
- 머신러닝
- Meta Learning
- classification
- 알고리즘
- pytorch
- computervision
- Python
- FGVC
- Depth estimation
- 딥러닝
- web
- Today
- Total
목록Data Science/Self Supervised Learning (23)
KalelPark's LAB
Abstract 최근 거대한 데이터셋으로의 NLP의 성공이 Computer Vision에도 유사한 방식으로 혁신을 보여주고 있습니다. 이러한 방법은, 선별된 데이터셋에서만 사용이 가능합니다. 우리는 기존 방식을 재검토하고, 다양한 기술을 결합하여 데이터 및 모델의 크기 측면을 확장합니다. 대부분 기술적 기여는 학습의 규모를 안정화하거나 가속화를 진행합니다. Introduction task에 구애받지 않은 표현력 학습을 하는 것은 NLP에서는 기본이 되어왔습니다. NLP에서의 영향을 받아, Vision에도 상당한 영향을 미치고 있습니다. 대부분 유망한 노력은 text-guided pretraining에 초점이 되어왔으며, feature를 학습하는데 상당한 기여를 해왔습니다. Caption은 이미지의 풍부한..
Abstract 본 논문에서는 Self-supervised Learning이, ConvNet과 비교하여, ViT에서의 두드러진 특징이 있는지 의문을 제시합니다. ViT에 SSL을 적용함으로써, 2가지를 관찰합니다. 1) Supervised에서 ViT 혹은 ConvNet에서의 Semantic segmentation에 대한 정보를 남기지 않지만, Self-supervised Learning에서의 ViT에서는 명시적으로 남깁니다. 2) 이러한 feature들은 K-NN classifier에서 높은 성능을 보이며, small ViT에서의 상당한 성능을 보입니다. 또한 본 논문에서는 Momentum Enocder, Multi-crop의 중요성을 강조합니다. Introduction NLP에서 영감을 받아, VIT..
Abstract 기존 Transformer는 global perspective로부터 learning representation 과 high-level feature을 고려한 반면, 본 논문에서는 새로운 방법론인 Masked Self-supervised Transformer 접근법을 설명합니다. 위 방법은 local context를 포착하면서, semantic information을 보존하는 것이 가능합니다. 본 논문에서는 multi-head attention map에서 masked token strategy를 사용합니다. 이러한 방법은 이미지의 Spatial information을 보존하면서, dense prediction task에서 유용합니다. Introduction Yann LeCun said, 만..
Abstract 최근 딥러닝에서모델을 계속해서 발전시키고자 한다면 annotated data가 많이 필요합니다. 이에 대한 한가지 해결방법은 active learning을 하는 것입니다. active learning이란, labeling되지 않은 데이터를 사람이 데이터를 생성하는 것을 말합니다. 본 논문에서는 annotate data를 표기합니다. 본 논문에서는, task에 구애받지 않고, 딥러닝 모델에 효과적으로 적용할 수 있는 새롭고, 단순한 방법을 제기합니다. "loss prediction module"이라고 불리는, small parameteric module을 붙이고, unlabel data의 target에 대한 loss가 어느정도인지 예측하도록 학습합니다. 이러한 묘듈은 모델이 잘못된 예측을 ..
Abstract Masked Imaging에 관련해서 설명. 동일한 이미지 내, 상당히 매우 많은 부분을 Patch로 생성하는데, 이러한 방법은 상당히 많은 부분이 매우 높은 상관관계를 나타내며, 마스킹 된 부분이 상당히 많이 중복됩니다. 우리는 이러한 중복성이 기존 MIM 기반의 방법들을 무시하고, SSL에서 무시할 수 없는 오버헤드를 야기합니다. 본 논문에서는 compacting token과 단지 필요한 정보만을 남기기 위한 방법인 Progressively Compressed AutoEncoder를 설명합니다. 본 논문에서, 우리는 토큰 시퀀스의 평균을 가진 각 토큰 간의 간단하지만 효과적인 유사성 메트릭을 통하여, 이미지에서 중복 토큰을 식별하고자 합니다. Introduction 본 논문에서는 Re..
Abstract 본 논문은 label 없이, model을 학습하는 Self-Supervised Learning을 분석합니다. 본 논문은 3가지 method를 비교합니다. (BiGAN, RotNet, DeepCluster). 데이터가 상당히 많더라도, Supervision과 같이 학습하는 것은 불가능합니다. 1) 본 논문은 초기 layer에서는 natural images의 통계에 대한 정보를 갖는 것이 힘들다는 것을 설명하고, 2) self-supervision에서는 그러한 표현력을 Self-supervision을 통해서, 학습될 수 있다고 설명합니다. 그리고, 대규모 데이터셋을 사용하는 것 대신 합성 변환을 활용하여, low-level statistics를 포착할 수 있습니다. Introduction 본..
Abstract 본 논문은 Generative, Representation을 동시에 활용하는 MAsked Generative Encoder(MAGE)를 소개합니다. 본 아이디어의 핵심은 마스크된 이미지를 활용하여, 이미지를 Generative 하는 방법과 Representation 2가지 모두 학습할 수 있습니다. MAGE는 입력 및 출력에서 GAN에 의한 토큰을 사용하여, Masking과 결합합니다. Contrastive loss를 Encoder에 추가함으로써, 표현력을 극대화합니다. Introduction Generative 와 recognition task는 visual과 data 내 semantic 정보를 학습해야 합니다. Generation은 high-level semantics과 low-lev..
GitHub를 참고하시면, CODE 및 다양한 논문 리뷰가 있습니다! 하단 링크를 참고하시기 바랍니다. (+ Star 및 Follow는 사랑입니다..!) https://github.com/kalelpark/Awesome-ComputerVision GitHub - kalelpark/Awesome-ComputerVision: Awesome-ComputerVision Awesome-ComputerVision. Contribute to kalelpark/Awesome-ComputerVision development by creating an account on GitHub. github.com Abstract 이미지로부터의 Self Supervised Learning의 목표는 대규모 데이터에 대한 annotat..
