일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- GAN
- nlp
- SSL
- Torch
- algorithm
- PRML
- math
- clean code
- cs
- Python
- computervision
- 머신러닝
- ML
- CV
- 알고리즘
- 자료구조
- pytorch
- Front
- Meta Learning
- web
- dl
- FineGrained
- 3d
- Vision
- nerf
- 딥러닝
- classification
- FGVC
- REACT
- Depth estimation
- Today
- Total
KalelPark's LAB
[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision 본문
[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision
kalelpark 2023. 3. 25. 11:00
Abstract
Image에 대한 text로부터 학습하는 것은 Supervision에서 상당히 유망있는 분야입니다. Image 와 text 쌍을 pretraining 시킴으로써, 상당한 SOTA를 달성함을 본 논문에서는 증명합니다. NLP는 visual concept을 추론하는데 사용될 수 있으며, zero-shot transfer model로 사용되는 것이 가능합니다.
Overview
CNN 기반 모델들이, 강한 면모를 보여주기는 하지만, zero-shot에서는 매우 낮은 성능을 보입니다. 본 논문에서는 대규모 데이터셋(Image + text)로부터, 학습하여 상당히 좋은 결과를 얻습니다.
Contrastive Learning과 유사하게, Image와 text를 하나의 공통된 space로 보낸 다음, postive에서는 similarity는 최대화하고, negative pair에서는 유사도를 최소화하도록 학습을 진행합니다.
Image Representation을 잘 추출하여, downstream으로 활용한다는 것인데, CLIP의 방법은 상당히 잘 뽑습니다.
또한, 기계학습에서, Overfitting 문제가 상당히 많이 발생하는데, 이는 training set과 test set의 distribution이 동일할 것이라는 전제 하에 발생하는 distribution Shift라고 합니다.
본 논문에서는 NLP에서 task-agnostic web-scale 방식을 vision 분야에도 적용이 잘되는지 유뮤를 분석합니다.
CLIP은 prompt를 통해, 높은 성능을 달성함으로써, 이를 증명했다고 볼 수 있습니다.
Reference
https://arxiv.org/abs/2103.00020
https://github.com/OpenAI/CLIP
https://greeksharifa.github.io/computer%20vision/2021/12/19/CLIP/