일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- web
- Meta Learning
- 3d
- Depth estimation
- FineGrained
- Vision
- 딥러닝
- PRML
- REACT
- ML
- SSL
- 자료구조
- 머신러닝
- cs
- pytorch
- nerf
- CV
- classification
- dl
- computervision
- Front
- FGVC
- Torch
- algorithm
- nlp
- math
- Python
- clean code
- GAN
- 알고리즘
- Today
- Total
목록Vision (49)
KalelPark's LAB
Abstract 본 논문에서는 dot product self attention을 사용하지 않는 Attention Free Trnasformer (AFT)을 제시합니다. AFT layer는 key와 value를 position biases와 함께 결합됩니다. 이후, query와 함께 element-wise 형태로 계산됩니다. 이러한 작업은 context size와 dimension of features에서 선형복잡성을 가지고, large input과 model size에서도, 모두 호환하게 합니다. 또한 global connectivity를 유지하면서, locality와 spatial weight를 공유하는 장점을 가지는 2가지 모델의 변형은 AFT-local과 AFT-conv를 소개합니다. Introd..
Reference https://blog.naver.com/PostView.naver?blogId=wpxkxmfpdls&logNo=221737078357&categoryNo=14&parentCategoryNo=0&from=thumbnailList
Contrastive Learning 과 관련된 논문을 읽다, 나온 행렬이다. Style은 서로 다른 특징(feature)간의 상관관계를 의미한다. 스타일 값이 크다는 것은 feature간의 상관관계가 높다는 것을 의미하고, 특징간 유사점이 많다는 것을 의미합니다. G는 특징들 간의 상관관계 값이고 특징들 간의 내적 값을 의미합니다. Gram Matirx와 Cosine Similiarity의 차이점 Gram matrix를 활용한 loss와 Cosine similarity를 활용한 loss는 둘 다 이미지 스타일 전이 (Image Style Transfer)에서 사용되는 손실 함수입니다. 하지만 그들은 서로 다른 방식으로 작동합니다. Gram matrix를 활용한 loss는 이미지에서 추출한 feature..
Gaussian Distribution ~ Normal Distribution 연속 확률 분포 중 가장 널리 알려진 분포이다. 아래의 수식은, 단일 변수 x에 대해 가우시안 분포를 기술한 것이다. 만약, D차원의 벡터인 경우, 분산 대신 공분산 D가 입력으로 사용되게 된다. (아래의 수식 참고) 중심 극한 정리(Central Limit Theorem) 각각의 데이터 집단에서의 평균이 u이고, 분산이 시그마의 제곱인 모집단에서 추출한 확률 표본이라고 하자. 이 때, X를 n개의 표본에서 얻은 표본평균이라고 할 때, n이 커질수록 표준 정규분포에 수렴한다는 것입니다. 즉, 모집단에 대한 특정 분포에 상관 없이, 샘플 사이즈가 크다면, 표본 평균의 분포는 정규분포에 근사하게 된다는 것입니다. 대한민국 전체 남..
Abstract 본 논문에서는 data-augmentaion에 없이, highly semantic image repreentations learning에 대한 접근법을 제시합니다. Image로부터, self-supervised learning에 대한 non-generative approach인 Joint-Embedding Predictive Architecture(I-JEPA)를 설명합니다. 아이디어의 핵심은, Single Context Block으로부터, 같은 이미지 내 다양한 target block의 representation을 예측합니다. 우선, sufficiently large scale 과 함께 target block을 sampling합니다. 그리고, sufficiently informative..
Pytorch unfold란? Batched tensor에 대하여, 마치 Convolution처럼, Slidingg하면서, locl block을 구하는 것이다. 예를들면, 해당 MNIST의 경우 1, 1, 28, 28 사이즈의 경우 -> 1, 49, 16 으로 변환한 것이다. EX) import torch.nn as nn from matplotlib import pyplot as plt from torchvision import datasets, transforms if __name__ == '__main__': train_data = datasets.MNIST(root='./data/', train=True, download=True, transform=transforms.ToTensor()) test..
Abstract 본 논문에서는, attention-based model이 CNN을 능가할 수 있음을 보여주고, 성능간의 격차를 줄이려고 노력했음을 보여줍니다. 또한, Image Classification에서의 ViT가 성능적으로 제한되는 요소가 fine-level feature에서 token representation으로 encoding하는데 low efficacy라는 것을 발견하였습니다. 이러한 문제를 해결하기 위해, 우리는 새로운 기법인 outlook attention을 보여주고, 단순한 알고리즘인 VOLO를 제시합니다. 기존 coarse level 내 global dependency modeling 인 Attention과 다르게, Outlook attention은 context token내에서, f..