일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Depth estimation
- 3d
- FineGrained
- algorithm
- 머신러닝
- 자료구조
- GAN
- nlp
- PRML
- SSL
- math
- Front
- Meta Learning
- ML
- 딥러닝
- clean code
- FGVC
- cs
- pytorch
- dl
- Vision
- 알고리즘
- CV
- REACT
- web
- Torch
- classification
- nerf
- computervision
- Python
- Today
- Total
목록CV (110)
KalelPark's LAB
Pytorch unfold란? Batched tensor에 대하여, 마치 Convolution처럼, Slidingg하면서, locl block을 구하는 것이다. 예를들면, 해당 MNIST의 경우 1, 1, 28, 28 사이즈의 경우 -> 1, 49, 16 으로 변환한 것이다. EX) import torch.nn as nn from matplotlib import pyplot as plt from torchvision import datasets, transforms if __name__ == '__main__': train_data = datasets.MNIST(root='./data/', train=True, download=True, transform=transforms.ToTensor()) test..
Abstract 본 논문에서는, attention-based model이 CNN을 능가할 수 있음을 보여주고, 성능간의 격차를 줄이려고 노력했음을 보여줍니다. 또한, Image Classification에서의 ViT가 성능적으로 제한되는 요소가 fine-level feature에서 token representation으로 encoding하는데 low efficacy라는 것을 발견하였습니다. 이러한 문제를 해결하기 위해, 우리는 새로운 기법인 outlook attention을 보여주고, 단순한 알고리즘인 VOLO를 제시합니다. 기존 coarse level 내 global dependency modeling 인 Attention과 다르게, Outlook attention은 context token내에서, f..
Abstract ITPN의 경우, MIM과 downstream recognition tasks 간의 관계의 격차를 최소화하도록, backbone과 neck을 동시에 pre-training을 진행합니다. 본 논문에서의 주된 기여는 2가지 입니다. 1) pretraining stage 내, feature pyramid를 투입합으로써, recognition task 와 reconstructure task를 통합합니다. 2) Multi-stage supervision을 feature pyramid로 제공하는 Masked feature Modeling (MFM)를 활용하여, Masked Image Modeling (MIM)을 보완합니다. ITPN의 경우, upstream pre-training 과 downstre..
Depth Estimations Metrics Depth estimation에서 주로 사용하는 지표로는 5가지가 존재합니다. 1. Absolute Relative Error 2. Sqaure Relative Error 3. Root mean Sqaure Error 4. Log scale RMSE 5. Accuracy under a threshold 일반적으로, Absolute Relative Error, Sqaure Relative Error, Root mean Sqaure Error, Log scale RMSE 은 전통적으로 Regression 모델의 성능을 측정하기 위해 사용된 Metric이며, Accuracy under threshold는 Depth estimation 모델의 Accuracy를 측정..
감마 분포(Gamma distribution) 우선, 감마 분포(Gamma distribution)에 대해서 살펴보도록 하겠습니다. 감마 함수는 Factorial을 자연수에만 한정해서 사용하지 않고, 더 큰 수 체계에서도 적용할 수 있는 방법을 고민하다가 나온 함수라고 합니다. 즉 복소수 범위까지 일반화된 Factorial을 의미합니다. 지수 분포를 한 번의 사건이 아닌 여러 개의 사건으로 확장한 것이라고 할 수 있습니다. 감마 분포(Gamma distribution)는 통상적으로 포아송 분포의 모수의 역수를 사용합니다. 즉, 모수가 β인 지수분포에서 β는 사건 사이 평균 소요시간을 의미합니다. 아래의 그래프의 경우 각 α,β 모수에 따른 Gamma Distribution입니다. α 가 증가할수록 평균과..
포아송 분포(Poisson Distribution) 어떤 단위 구간(시간)에서 일어나는 특정 사건의 발생 횟수 분포에 대한 것을 의미합니다. 즉, 포아송 분포를 통하여, 평균 발생 횟수가 5개가 되는 단위 구간에서 사건이 3개 일어날 확률은 어느정도가 되는지 구할 때 사용합니다. 해당 구간 내 사건은 랜덤으로 일어나므로 정확한 타이밍은 예측하는 것이 불가능합니다. * 포아송 분포(Poission distribution)을 따른다면, 다음의 성질을 만족해야 합니다. 1. 서로 겹치지 않는 단위 구간에서 발생하는 사건들은 서로 독립이다. 2. 단위 구간의 크기 대비 사건의 평균 발생 횟수의 비율은 일정하다. 3. 같은 사건이 동시에 일어날 확률은 0이다. * 여기서 눈여겨볼 점은 포아송 분포는 기댓값과 분산..
Binary Variables 랜덤 변수 x 가 x ∈ {0,1} 인 상황(즉, 취할 수 있는 값이 단 2개)에서의 확률 분포를 살펴본다. 예를 들어, 동전의 앞, 뒷면이 나올 확률이 서로 동일하지 않다고 가정 시, 확률은 p( x = 1 | μ ) = μ 로 표현할 수 있다. 반대의 경우도, p ( x = 0 | μ ) = 1 − μ 이다. 이를 하나의 표현식으로 합쳐 만들어내면 다음과 같이 기술할 수 있다. Bern(x|μ)=μ^(x)(1−μ)^(1−x)로 표현 가능하다. (Bernoulli) 베르누이 확률변수는, 표본 데이터가 하나 뿐일때 사용되고, 표본 데이터가 여러 개 존재한다면 이항 분포(binominal distribution)를 따릅니다. * 이후 베타 분포를 설명하지만, 베타 분포를 알기..
What's Neural Radiance Fields? NeRF는 2D 이미지를 3D로 변환해주는 모델입니다. 쉽게 말하자면, 여러 장의 이미지를 입력 받아, 새로운 시점에서의 물체 이미지를 만들어내는 View Synthesis 모델입니다. N개 시점에서 불연속적인 2D 이미지를 입력 받아, 이미지가 연속적으로 구성될 수 있도록 임의의 시점에서 새로운 이미지를 만들어냅니다. NeRF의와 기존 기술과의 차별점 2D 이미지에서 3D 모델을 추출해내는 기술 자체는 이미 기존에도 존재했던 기술입니다. Photogrammetry 기법 혹은 3D scanning을 이용한 3D 모델 생성 등은 여러 산업 현장에서 쓰이는 기술이지만, NeRF는 이들과 몇가지 근본적인 차별점이 존재합니다. NerF는 훌륭한 빛 반사가 ..