일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- CV
- PRML
- Depth estimation
- pytorch
- FineGrained
- 알고리즘
- 자료구조
- FGVC
- nerf
- nlp
- 3d
- REACT
- algorithm
- Vision
- Torch
- computervision
- clean code
- Python
- web
- math
- SSL
- 딥러닝
- classification
- dl
- Meta Learning
- ML
- 머신러닝
- GAN
- cs
- Front
- Today
- Total
목록Data Science (117)
KalelPark's LAB
Abstract 기존 Transformer는 global perspective로부터 learning representation 과 high-level feature을 고려한 반면, 본 논문에서는 새로운 방법론인 Masked Self-supervised Transformer 접근법을 설명합니다. 위 방법은 local context를 포착하면서, semantic information을 보존하는 것이 가능합니다. 본 논문에서는 multi-head attention map에서 masked token strategy를 사용합니다. 이러한 방법은 이미지의 Spatial information을 보존하면서, dense prediction task에서 유용합니다. Introduction Yann LeCun said, 만..
Stable Diffusion Stable diffusion은 다양한 구성 요소와 모델로 구성된 시스템입니다. 단일 모델이 아닙니다. 내부를 살펴보면, 텍스트 정보를 텍스트 속 아이디어에 대한 수치적 표현(numerical representation)으로 바꾸어주는 구성요소가 존재합니다. 이후, 입력 텍스트를 받아 텍스트의 각 단어 또는 토큰을 나타내는 일련의 숫자 목록을 출력합니다. 다음 해당 정보는 몇 가지 구성 요소로 이루어진 생성기에 제공됩니다. 이미지 생성기는 2단계를 거칩니다. (The image generator goes through two stages.) Image information creator 위 방법은 Stable Diffusion의 성능을 크게 개선합니다. 이전 모델보다 상당히..
Abstract 최근 딥러닝에서모델을 계속해서 발전시키고자 한다면 annotated data가 많이 필요합니다. 이에 대한 한가지 해결방법은 active learning을 하는 것입니다. active learning이란, labeling되지 않은 데이터를 사람이 데이터를 생성하는 것을 말합니다. 본 논문에서는 annotate data를 표기합니다. 본 논문에서는, task에 구애받지 않고, 딥러닝 모델에 효과적으로 적용할 수 있는 새롭고, 단순한 방법을 제기합니다. "loss prediction module"이라고 불리는, small parameteric module을 붙이고, unlabel data의 target에 대한 loss가 어느정도인지 예측하도록 학습합니다. 이러한 묘듈은 모델이 잘못된 예측을 ..
Abstract Masked Imaging에 관련해서 설명. 동일한 이미지 내, 상당히 매우 많은 부분을 Patch로 생성하는데, 이러한 방법은 상당히 많은 부분이 매우 높은 상관관계를 나타내며, 마스킹 된 부분이 상당히 많이 중복됩니다. 우리는 이러한 중복성이 기존 MIM 기반의 방법들을 무시하고, SSL에서 무시할 수 없는 오버헤드를 야기합니다. 본 논문에서는 compacting token과 단지 필요한 정보만을 남기기 위한 방법인 Progressively Compressed AutoEncoder를 설명합니다. 본 논문에서, 우리는 토큰 시퀀스의 평균을 가진 각 토큰 간의 간단하지만 효과적인 유사성 메트릭을 통하여, 이미지에서 중복 토큰을 식별하고자 합니다. Introduction 본 논문에서는 Re..
Abstract 본 논문은 label 없이, model을 학습하는 Self-Supervised Learning을 분석합니다. 본 논문은 3가지 method를 비교합니다. (BiGAN, RotNet, DeepCluster). 데이터가 상당히 많더라도, Supervision과 같이 학습하는 것은 불가능합니다. 1) 본 논문은 초기 layer에서는 natural images의 통계에 대한 정보를 갖는 것이 힘들다는 것을 설명하고, 2) self-supervision에서는 그러한 표현력을 Self-supervision을 통해서, 학습될 수 있다고 설명합니다. 그리고, 대규모 데이터셋을 사용하는 것 대신 합성 변환을 활용하여, low-level statistics를 포착할 수 있습니다. Introduction 본..
Overfitting & Generalization 딥러닝 모델은 데이터가 많을수록 높은 성능을 나타냅니다. 그러나, 데이터가 많다고 해서 "Overfitting"으로 인하여 모델 성능이 항상 좋은 것은 아닙니다. - 모델의 복잡도(power)가 높으면 학습에서 데이터의 경향성을 따라가는 경향이 있습니다. - "Overfitting" Dropout - 대표적인 generalization 기법입니다. (https://jmlr.org/papers/v15/srivastava14a.html) - 학습 과정에서 특정 node들을 p의 확률로 사용하겠다는 의미이다. - Dropout을 적용하면, 적용하지 않은 것과 비교하여 각 node들의 output이 증가함 Dropconnect - Dropout의 조금 일반화된..
import torch from PIL import Image import numpy as np from torchvision.transforms import transforms tf = transforms.ToPILImage() # Load image image = Image.open("/content/img.jpeg") image = np.array(image) tensor_image = torch.tensor(image) tensor_image = tensor_image.float() mask = torch.zeros_like(tensor_image) # Create binary mask mask[50:300, 200:300, :] = 1.0 # column, row mask[50:300, 420:..
Abstract 본 논문은 Generative, Representation을 동시에 활용하는 MAsked Generative Encoder(MAGE)를 소개합니다. 본 아이디어의 핵심은 마스크된 이미지를 활용하여, 이미지를 Generative 하는 방법과 Representation 2가지 모두 학습할 수 있습니다. MAGE는 입력 및 출력에서 GAN에 의한 토큰을 사용하여, Masking과 결합합니다. Contrastive loss를 Encoder에 추가함으로써, 표현력을 극대화합니다. Introduction Generative 와 recognition task는 visual과 data 내 semantic 정보를 학습해야 합니다. Generation은 high-level semantics과 low-lev..