KalelPark's LAB

[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision 본문

Data Science/Vision Language Model

[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision

kalelpark 2023. 3. 25. 11:00

Abstract

Image에 대한 text로부터 학습하는 것은 Supervision에서 상당히 유망있는 분야입니다. Image 와 text 쌍을 pretraining 시킴으로써, 상당한 SOTA를 달성함을 본 논문에서는 증명합니다. NLP는 visual concept을 추론하는데 사용될 수 있으며, zero-shot transfer model로 사용되는 것이 가능합니다.

Overview

CNN 기반 모델들이, 강한 면모를 보여주기는 하지만, zero-shot에서는 매우 낮은 성능을 보입니다. 본 논문에서는 대규모 데이터셋(Image + text)로부터, 학습하여 상당히 좋은 결과를 얻습니다.

Contrastive Learning과 유사하게, Image와 text를 하나의 공통된 space로 보낸 다음, postive에서는 similarity는 최대화하고, negative pair에서는 유사도를 최소화하도록 학습을 진행합니다.

Image Representation을 잘 추출하여, downstream으로 활용한다는 것인데, CLIP의 방법은 상당히 잘 뽑습니다.

또한, 기계학습에서, Overfitting 문제가 상당히 많이 발생하는데, 이는 training set과 test set의 distribution이 동일할 것이라는 전제 하에 발생하는 distribution Shift라고 합니다.

 

본 논문에서는 NLP에서 task-agnostic web-scale 방식을 vision 분야에도 적용이 잘되는지 유뮤를 분석합니다.

CLIP은 prompt를 통해, 높은 성능을 달성함으로써, 이를 증명했다고 볼 수 있습니다.

Reference

https://arxiv.org/abs/2103.00020

 

Learning Transferable Visual Models From Natural Language Supervision

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co

arxiv.org

https://github.com/OpenAI/CLIP

 

GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most releva...

github.com

https://greeksharifa.github.io/computer%20vision/2021/12/19/CLIP/

 

Python, Machine & Deep Learning

Python, Machine Learning & Deep Learning

greeksharifa.github.io

 

Comments