[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision

Recent Posts

Link

kalelPark's GitHub

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Today

Total

관리 메뉴

KalelPark's LAB

[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision 본문

Data Science/Vision Language Model

[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision

kalelpark 2023. 3. 25. 11:00

Abstract

Image에 대한 text로부터 학습하는 것은 Supervision에서 상당히 유망있는 분야입니다. Image 와 text 쌍을 pretraining 시킴으로써, 상당한 SOTA를 달성함을 본 논문에서는 증명합니다. NLP는 visual concept을 추론하는데 사용될 수 있으며, zero-shot transfer model로 사용되는 것이 가능합니다.

Overview

CNN 기반 모델들이, 강한 면모를 보여주기는 하지만, zero-shot에서는 매우 낮은 성능을 보입니다. 본 논문에서는 대규모 데이터셋(Image + text)로부터, 학습하여 상당히 좋은 결과를 얻습니다.

Contrastive Learning과 유사하게, Image와 text를 하나의 공통된 space로 보낸 다음, postive에서는 similarity는 최대화하고, negative pair에서는 유사도를 최소화하도록 학습을 진행합니다.

Image Representation을 잘 추출하여, downstream으로 활용한다는 것인데, CLIP의 방법은 상당히 잘 뽑습니다.

또한, 기계학습에서, Overfitting 문제가 상당히 많이 발생하는데, 이는 training set과 test set의 distribution이 동일할 것이라는 전제 하에 발생하는 distribution Shift라고 합니다.

본 논문에서는 NLP에서 task-agnostic web-scale 방식을 vision 분야에도 적용이 잘되는지 유뮤를 분석합니다.

CLIP은 prompt를 통해, 높은 성능을 달성함으로써, 이를 증명했다고 볼 수 있습니다.

Reference

https://arxiv.org/abs/2103.00020

Learning Transferable Visual Models From Natural Language Supervision

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co

arxiv.org

https://github.com/OpenAI/CLIP

GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most releva...

github.com

https://greeksharifa.github.io/computer%20vision/2021/12/19/CLIP/

Python, Machine & Deep Learning

Python, Machine Learning & Deep Learning

greeksharifa.github.io

저작자표시 비영리 (새창열림)

'Data Science > Vision Language Model' 카테고리의 다른 글

[ 논문 리뷰] Conditional Prompt Learning for Vision-Language Models (1)	2023.04.10
[ 논문 리뷰] Learning to Prompt for Vision-Language Models (0)	2023.04.06
[ Vision Language ] High-Resolution Image Synthesis with Latent Diffusion Models (0)	2023.04.02

'Data Science/Vision Language Model' Related Articles

Comments

KalelPark's LAB

[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision 본문

[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision

Abstract

Overview

Reference

'Data Science > Vision Language Model' 카테고리의 다른 글

티스토리툴바