일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- cs
- Python
- Front
- nerf
- PRML
- web
- dl
- REACT
- Vision
- FGVC
- 딥러닝
- pytorch
- nlp
- ML
- computervision
- FineGrained
- 자료구조
- 알고리즘
- 머신러닝
- classification
- 3d
- CV
- math
- algorithm
- SSL
- Meta Learning
- Torch
- Depth estimation
- GAN
- clean code
- Today
- Total
목록Data Science (117)
KalelPark's LAB
최근 3D Reconstructure에 관심이 생겨 추후 읽어볼 논문들을 메모하고자 작성합니다. 3D reconstructure의 가장 근본적인 문제는 Image Pixel의 depth를 추정하는 것이다. 최근 연구에서는 Single Image View를 사용하거나, Multi View를 사용하는 방식을 채택하였습니다. Single Image View로는 "Depth Map Prediction from a Single Image using a Multi-Scale Deep Network" "Unsupervised Monocular Depth Estimation with Left-Right Consistency" 2가지 논문을 읽어보기를 제안합니다. 또한 아래의 논문을 추가적으로 제안하는데요. 한번 살펴보..
Abstract 최근 거대한 데이터셋으로의 NLP의 성공이 Computer Vision에도 유사한 방식으로 혁신을 보여주고 있습니다. 이러한 방법은, 선별된 데이터셋에서만 사용이 가능합니다. 우리는 기존 방식을 재검토하고, 다양한 기술을 결합하여 데이터 및 모델의 크기 측면을 확장합니다. 대부분 기술적 기여는 학습의 규모를 안정화하거나 가속화를 진행합니다. Introduction task에 구애받지 않은 표현력 학습을 하는 것은 NLP에서는 기본이 되어왔습니다. NLP에서의 영향을 받아, Vision에도 상당한 영향을 미치고 있습니다. 대부분 유망한 노력은 text-guided pretraining에 초점이 되어왔으며, feature를 학습하는데 상당한 기여를 해왔습니다. Caption은 이미지의 풍부한..
Collapse란? "Collapse"는 모델의 학습 과정에서 출력 값이 제한된 범위로 수렴하거나, 제한된 값만을 출력하는 현상을 의미합니다. 예를 들어, 모델이 다양한 입력에 대해 동일한 출력 값을 예측하거나, 출력 값이 특정 값으로 수렴하는 경우 "collapse"가 발생합니다. 2가지 예시가 존재합니다. GAN) Generator 와 Discirminator를 균형있게 학습시켜야 하는데, Discriminator가 학습속도가 너무 빨라지는 경우가 있다. 이 경우, GAN은 "진짜" 같은 이미지를 생성하는 목적은 잃어 버리고, discriminator가 헷갈릴만한 그림만 만드는 과정을 의미한다. 이를 Mode Collapse라고 한다. Representation Learning) Contrastive..
Abstract 본 논문에서는 Self-supervised Learning이, ConvNet과 비교하여, ViT에서의 두드러진 특징이 있는지 의문을 제시합니다. ViT에 SSL을 적용함으로써, 2가지를 관찰합니다. 1) Supervised에서 ViT 혹은 ConvNet에서의 Semantic segmentation에 대한 정보를 남기지 않지만, Self-supervised Learning에서의 ViT에서는 명시적으로 남깁니다. 2) 이러한 feature들은 K-NN classifier에서 높은 성능을 보이며, small ViT에서의 상당한 성능을 보입니다. 또한 본 논문에서는 Momentum Enocder, Multi-crop의 중요성을 강조합니다. Introduction NLP에서 영감을 받아, VIT..
해당 객체에 Attention을 줘보도록 하겠습니다. :) CODE import torch import torch.nn as nn import torch.nn.functional as F from PIL import Image from torchvision.transforms import transforms trans_main = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean = 0.5, std = 0.5), ]) class ImageAttentionMap(nn.Module): def __init__(self): super(ImageAttentionMap, self).__..
Abstract CLIP과 같이, Vision-Language Model의 영향력이 증가함으로써, 다운스트림에서 테스트 하는 것은 필수입니다. 본 연구에서 우리는 CoOp의 문제점을 파악하고, Learned context는 동일한 데이터세트에서 일반화가 가능하는 것을 시사하며, CoOp은 학습도중에 Overfitting이 발생함을 언급합니다. 이러한 문제를 다루기 위해 본 논문에서는 Conditional Context Optimization(CoCoOp)을 설명합니다. 기존의 방법론과 비교했을 때, 우리의 dyanmaic prompts는 each instance를 채택하고, class의 변화에 민감하지 않습니다. Introduction VLM과 관련하여, 전반적인 설명을 하고 있습니다. automate ..
Abstract Transformer는 상당한 표현력을 지니고 있지만, high-resolution images와 같이 long sequence에 대해서는 상당히 계산이 취약합니다. 본 논문에서는 어떻게 CNN의 inductive bias와 transformer의 표현력을 어떻게 결합해야하는지 증명하고, 고해상도 이미지를 만드는 방법을 언급합니다. 또한, CNN을 사용하여 Image constituents의 context-rich vocabulary를 어떻게 학습하는지 보여주고, transformer를 활용하여 high-resolution images의 구성을 효율적으로 모델링하는 방법을 성명합니다. 우리의 접근법은 object class, spatial information과 같은 비공간적 정보를 가진..
Abstract 기존의 discretized representation learning과 다르게, vision language pre-training은 Image와 text를 feature space에서 잘 align 합니다. 최근 Prompt Engineering으로부터, 본 논문에서는 Context Optimization (CoOp)을 제안합니다. pre-trained parameters는 유지하면서 구체적으로 CoOp은 학습 가능한 벡터로 Prompt's context word를 Modeling합니다. 본 논문에서는 CoOp (통합된 맥락과 구체적인 클래스 특징을 반영한)을 제안합니다. 기존 11개의 데이터셋에서, SOTA를 달성합니다. Introduction State-of-the-art visu..