일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- nlp
- web
- Front
- cs
- REACT
- Python
- PRML
- FGVC
- clean code
- Depth estimation
- 3d
- SSL
- CV
- Vision
- math
- 머신러닝
- dl
- classification
- 자료구조
- GAN
- computervision
- pytorch
- 딥러닝
- algorithm
- Torch
- 알고리즘
- FineGrained
- Meta Learning
- ML
- nerf
- Today
- Total
KalelPark's LAB
[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision 본문
[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision
kalelpark 2023. 3. 25. 11:00
Abstract
Image에 대한 text로부터 학습하는 것은 Supervision에서 상당히 유망있는 분야입니다. Image 와 text 쌍을 pretraining 시킴으로써, 상당한 SOTA를 달성함을 본 논문에서는 증명합니다. NLP는 visual concept을 추론하는데 사용될 수 있으며, zero-shot transfer model로 사용되는 것이 가능합니다.
Overview
CNN 기반 모델들이, 강한 면모를 보여주기는 하지만, zero-shot에서는 매우 낮은 성능을 보입니다. 본 논문에서는 대규모 데이터셋(Image + text)로부터, 학습하여 상당히 좋은 결과를 얻습니다.
Contrastive Learning과 유사하게, Image와 text를 하나의 공통된 space로 보낸 다음, postive에서는 similarity는 최대화하고, negative pair에서는 유사도를 최소화하도록 학습을 진행합니다.
Image Representation을 잘 추출하여, downstream으로 활용한다는 것인데, CLIP의 방법은 상당히 잘 뽑습니다.
또한, 기계학습에서, Overfitting 문제가 상당히 많이 발생하는데, 이는 training set과 test set의 distribution이 동일할 것이라는 전제 하에 발생하는 distribution Shift라고 합니다.
본 논문에서는 NLP에서 task-agnostic web-scale 방식을 vision 분야에도 적용이 잘되는지 유뮤를 분석합니다.
CLIP은 prompt를 통해, 높은 성능을 달성함으로써, 이를 증명했다고 볼 수 있습니다.
Reference
https://arxiv.org/abs/2103.00020
https://github.com/OpenAI/CLIP
https://greeksharifa.github.io/computer%20vision/2021/12/19/CLIP/