일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 3d
- Vision
- math
- clean code
- web
- pytorch
- 알고리즘
- CV
- computervision
- PRML
- nlp
- Depth estimation
- classification
- REACT
- SSL
- ML
- algorithm
- 딥러닝
- GAN
- cs
- Meta Learning
- Python
- Front
- dl
- nerf
- FGVC
- 머신러닝
- FineGrained
- 자료구조
- Torch
- Today
- Total
목록Data Science/Vision Language Model (4)
KalelPark's LAB
Abstract CLIP과 같이, Vision-Language Model의 영향력이 증가함으로써, 다운스트림에서 테스트 하는 것은 필수입니다. 본 연구에서 우리는 CoOp의 문제점을 파악하고, Learned context는 동일한 데이터세트에서 일반화가 가능하는 것을 시사하며, CoOp은 학습도중에 Overfitting이 발생함을 언급합니다. 이러한 문제를 다루기 위해 본 논문에서는 Conditional Context Optimization(CoCoOp)을 설명합니다. 기존의 방법론과 비교했을 때, 우리의 dyanmaic prompts는 each instance를 채택하고, class의 변화에 민감하지 않습니다. Introduction VLM과 관련하여, 전반적인 설명을 하고 있습니다. automate ..
Abstract 기존의 discretized representation learning과 다르게, vision language pre-training은 Image와 text를 feature space에서 잘 align 합니다. 최근 Prompt Engineering으로부터, 본 논문에서는 Context Optimization (CoOp)을 제안합니다. pre-trained parameters는 유지하면서 구체적으로 CoOp은 학습 가능한 벡터로 Prompt's context word를 Modeling합니다. 본 논문에서는 CoOp (통합된 맥락과 구체적인 클래스 특징을 반영한)을 제안합니다. 기존 11개의 데이터셋에서, SOTA를 달성합니다. Introduction State-of-the-art visu..
Stable Diffusion Stable diffusion은 다양한 구성 요소와 모델로 구성된 시스템입니다. 단일 모델이 아닙니다. 내부를 살펴보면, 텍스트 정보를 텍스트 속 아이디어에 대한 수치적 표현(numerical representation)으로 바꾸어주는 구성요소가 존재합니다. 이후, 입력 텍스트를 받아 텍스트의 각 단어 또는 토큰을 나타내는 일련의 숫자 목록을 출력합니다. 다음 해당 정보는 몇 가지 구성 요소로 이루어진 생성기에 제공됩니다. 이미지 생성기는 2단계를 거칩니다. (The image generator goes through two stages.) Image information creator 위 방법은 Stable Diffusion의 성능을 크게 개선합니다. 이전 모델보다 상당히..
Abstract Image에 대한 text로부터 학습하는 것은 Supervision에서 상당히 유망있는 분야입니다. Image 와 text 쌍을 pretraining 시킴으로써, 상당한 SOTA를 달성함을 본 논문에서는 증명합니다. NLP는 visual concept을 추론하는데 사용될 수 있으며, zero-shot transfer model로 사용되는 것이 가능합니다. Overview CNN 기반 모델들이, 강한 면모를 보여주기는 하지만, zero-shot에서는 매우 낮은 성능을 보입니다. 본 논문에서는 대규모 데이터셋(Image + text)로부터, 학습하여 상당히 좋은 결과를 얻습니다. Contrastive Learning과 유사하게, Image와 text를 하나의 공통된 space로 보낸 다음, ..