일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 자료구조
- FGVC
- classification
- Depth estimation
- math
- CV
- REACT
- 알고리즘
- PRML
- 머신러닝
- GAN
- pytorch
- Vision
- ML
- Front
- clean code
- SSL
- cs
- computervision
- 딥러닝
- web
- Torch
- algorithm
- dl
- nlp
- nerf
- Meta Learning
- 3d
- Python
- FineGrained
- Today
- Total
목록Data Science/Common (18)
KalelPark's LAB
Contrastive Learning 과 관련된 논문을 읽다, 나온 행렬이다. Style은 서로 다른 특징(feature)간의 상관관계를 의미한다. 스타일 값이 크다는 것은 feature간의 상관관계가 높다는 것을 의미하고, 특징간 유사점이 많다는 것을 의미합니다. G는 특징들 간의 상관관계 값이고 특징들 간의 내적 값을 의미합니다. Gram Matirx와 Cosine Similiarity의 차이점 Gram matrix를 활용한 loss와 Cosine similarity를 활용한 loss는 둘 다 이미지 스타일 전이 (Image Style Transfer)에서 사용되는 손실 함수입니다. 하지만 그들은 서로 다른 방식으로 작동합니다. Gram matrix를 활용한 loss는 이미지에서 추출한 feature..
What's Neural Radiance Fields? NeRF는 2D 이미지를 3D로 변환해주는 모델입니다. 쉽게 말하자면, 여러 장의 이미지를 입력 받아, 새로운 시점에서의 물체 이미지를 만들어내는 View Synthesis 모델입니다. N개 시점에서 불연속적인 2D 이미지를 입력 받아, 이미지가 연속적으로 구성될 수 있도록 임의의 시점에서 새로운 이미지를 만들어냅니다. NeRF의와 기존 기술과의 차별점 2D 이미지에서 3D 모델을 추출해내는 기술 자체는 이미 기존에도 존재했던 기술입니다. Photogrammetry 기법 혹은 3D scanning을 이용한 3D 모델 생성 등은 여러 산업 현장에서 쓰이는 기술이지만, NeRF는 이들과 몇가지 근본적인 차별점이 존재합니다. NerF는 훌륭한 빛 반사가 ..
Segmentation 및 Estimation 논문을 읽다보니, 자주나오는 용어이다. Unary potential은 이미지, 텍스트 등의 입력 데이터에서 각각의 특성이 얼마나, 특정 클래스에 속하는지를 측정하는데 사용하는 함수이다. Vision에서는 Pixel에 해당하는 클래스에 속할 확률을 계산합니다. 일반적으로, 확률 분포를 모델링하는데 사용되는 함수로, 다양한 형태로 나타내는 것이 가능합니다. Unary Potential은 학습 중에 가중치를 조정함으로써, 입력 특성을 올바르게 분류하도록 돕습니다. 학습을 진행하면서, 데이터의 손실 함수를 최소화 하도록 가중치를 조정하면서, 모델이 올바르게 예측하는 것을 최대화하려고 합니다. 예를 들어, 이미지 분할에서 unary potential은 차량의 특징인 ..
SAD(Sum of Absolute) Stereo Matching에서 기초적으로 사용하는 방법입니다., Depth Image를 생성하기 위해서, 가장 근본적인 문제는 "왼쪽 용상의 픽셀이 오른쪽 영상 픽셀의 어디와 유사한지 파악할 때 사용됩니다." 이때, 필요한 조건은 두대의 카메라의 광축 (Optical Axis)를 평행하게 해야 합니다. 이는 카메라의 Epipolar line과 두대의 카메라 base line과 평행하게 해야합니다. (이러한 조건을 만족하지 못하면, Stereo Matching 문제는 2차원에서 해결해야되므로 상당히 시간소모가 많이 되어, 1차원 문제로 해결해야 합니다.) 먼저 픽셀과 픽셀을 비교하여, 차이를 계산하면 간단하게 픽셀간의 유사성을 측정하는 것이 가능합니다. 이는 해당하는..
Stereo Vision이란? 사람의 시각 시스템을 모방한 기술이며, 자율 주행 자동차등의 관심이 높아짐에 따라, 라이더 및 레이더 센서 기술을 대체할 수 있는 기술로 관심을 받고 있습니다. 사람은 두 눈으로부터 좌/우 차이가 존재하는 2차원의 영상을 입력받고, 입력 받은 영상을 인간의 뇌로 부터 융합되는 과정을 통해3차원의 거리 감을 인지합니다. 이와 마찬가지로, Stereo Vision은 카메라를 통해, 입력되는 2차원의 좌/우 영상을 계산하면서 3차원 거리 정보를 획득하는 것이 가능합니다. * 거리 계산 방법 - 3차원 거리 정보는 시차(Parllax, disparity), 초점 거리(focal length), 베이스라인(baseline) 3가지 요소를 고려하여, 획득합니다. - 시차(Dispari..
우선, Depth Estimation이란 말 그대로 영상에서 깊이를 그대로 추정하는 것을 의미합니다. 컴퓨터는 사진만 보고, 사진 내 존재하는 객체를 추정하기 어려워 합니다. 따라서 깊이를 추정하기 위해 train하는 것을 말합니다. 하단의 그림을 보다시피, 가까운 부분은 밝은색, 어두운 부분은 보라색임을 알 수 있습니다. Depth Estimation이란, Stereo와 Mono가 존재합니다. Mono Depth Estimation은 말 그대로 하나의 image만을 가지고, Depth를 추정하는 방식입니다. Depth를 추정할 때는, Stereo Camera로 찍은 left image와 right image가 필요합니다. left image와 right image로부터 차이가 얼마나는지 파악함으로써, ..
최근 3D Reconstructure에 관심이 생겨 추후 읽어볼 논문들을 메모하고자 작성합니다. 3D reconstructure의 가장 근본적인 문제는 Image Pixel의 depth를 추정하는 것이다. 최근 연구에서는 Single Image View를 사용하거나, Multi View를 사용하는 방식을 채택하였습니다. Single Image View로는 "Depth Map Prediction from a Single Image using a Multi-Scale Deep Network" "Unsupervised Monocular Depth Estimation with Left-Right Consistency" 2가지 논문을 읽어보기를 제안합니다. 또한 아래의 논문을 추가적으로 제안하는데요. 한번 살펴보..
Collapse란? "Collapse"는 모델의 학습 과정에서 출력 값이 제한된 범위로 수렴하거나, 제한된 값만을 출력하는 현상을 의미합니다. 예를 들어, 모델이 다양한 입력에 대해 동일한 출력 값을 예측하거나, 출력 값이 특정 값으로 수렴하는 경우 "collapse"가 발생합니다. 2가지 예시가 존재합니다. GAN) Generator 와 Discirminator를 균형있게 학습시켜야 하는데, Discriminator가 학습속도가 너무 빨라지는 경우가 있다. 이 경우, GAN은 "진짜" 같은 이미지를 생성하는 목적은 잃어 버리고, discriminator가 헷갈릴만한 그림만 만드는 과정을 의미한다. 이를 Mode Collapse라고 한다. Representation Learning) Contrastive..