'Data Science/Vision Language Model' 카테고리의 글 목록

Recent Posts

Link

kalelPark's GitHub

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Today

Total

관리 메뉴

목록Data Science/Vision Language Model (4)

KalelPark's LAB

[ 논문 리뷰] Conditional Prompt Learning for Vision-Language Models

Abstract CLIP과 같이, Vision-Language Model의 영향력이 증가함으로써, 다운스트림에서 테스트 하는 것은 필수입니다. 본 연구에서 우리는 CoOp의 문제점을 파악하고, Learned context는 동일한 데이터세트에서 일반화가 가능하는 것을 시사하며, CoOp은 학습도중에 Overfitting이 발생함을 언급합니다. 이러한 문제를 다루기 위해 본 논문에서는 Conditional Context Optimization(CoCoOp)을 설명합니다. 기존의 방법론과 비교했을 때, 우리의 dyanmaic prompts는 each instance를 채택하고, class의 변화에 민감하지 않습니다. Introduction VLM과 관련하여, 전반적인 설명을 하고 있습니다. automate ..

Data Science/Vision Language Model 2023. 4. 10. 16:18

[ 논문 리뷰] Learning to Prompt for Vision-Language Models

Abstract 기존의 discretized representation learning과 다르게, vision language pre-training은 Image와 text를 feature space에서 잘 align 합니다. 최근 Prompt Engineering으로부터, 본 논문에서는 Context Optimization (CoOp)을 제안합니다. pre-trained parameters는 유지하면서 구체적으로 CoOp은 학습 가능한 벡터로 Prompt's context word를 Modeling합니다. 본 논문에서는 CoOp (통합된 맥락과 구체적인 클래스 특징을 반영한)을 제안합니다. 기존 11개의 데이터셋에서, SOTA를 달성합니다. Introduction State-of-the-art visu..

Data Science/Vision Language Model 2023. 4. 6. 09:26

[ Vision Language ] High-Resolution Image Synthesis with Latent Diffusion Models

Stable Diffusion Stable diffusion은 다양한 구성 요소와 모델로 구성된 시스템입니다. 단일 모델이 아닙니다. 내부를 살펴보면, 텍스트 정보를 텍스트 속 아이디어에 대한 수치적 표현(numerical representation)으로 바꾸어주는 구성요소가 존재합니다. 이후, 입력 텍스트를 받아 텍스트의 각 단어 또는 토큰을 나타내는 일련의 숫자 목록을 출력합니다. 다음 해당 정보는 몇 가지 구성 요소로 이루어진 생성기에 제공됩니다. 이미지 생성기는 2단계를 거칩니다. (The image generator goes through two stages.) Image information creator 위 방법은 Stable Diffusion의 성능을 크게 개선합니다. 이전 모델보다 상당히..

Data Science/Vision Language Model 2023. 4. 2. 22:25

[ Vision Language ] Learning Transferable Visual Models From Natural Language Supervision

Abstract Image에 대한 text로부터 학습하는 것은 Supervision에서 상당히 유망있는 분야입니다. Image 와 text 쌍을 pretraining 시킴으로써, 상당한 SOTA를 달성함을 본 논문에서는 증명합니다. NLP는 visual concept을 추론하는데 사용될 수 있으며, zero-shot transfer model로 사용되는 것이 가능합니다. Overview CNN 기반 모델들이, 강한 면모를 보여주기는 하지만, zero-shot에서는 매우 낮은 성능을 보입니다. 본 논문에서는 대규모 데이터셋(Image + text)로부터, 학습하여 상당히 좋은 결과를 얻습니다. Contrastive Learning과 유사하게, Image와 text를 하나의 공통된 space로 보낸 다음, ..

Data Science/Vision Language Model 2023. 3. 25. 11:00

이전 Prev 1 Next 다음

목록Data Science/Vision Language Model (4)

KalelPark's LAB

티스토리툴바