일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- CV
- Python
- FGVC
- web
- classification
- math
- 딥러닝
- SSL
- Meta Learning
- cs
- clean code
- nlp
- PRML
- Depth estimation
- algorithm
- 알고리즘
- 머신러닝
- ML
- pytorch
- Front
- 자료구조
- dl
- REACT
- computervision
- Torch
- Vision
- FineGrained
- nerf
- 3d
- GAN
- Today
- Total
목록3d (9)
KalelPark's LAB
Abstract 본 논문에서는 monocular video에 의하여, 제공되는 supervision에서 robot ego-motion과 scene depth를 unsupervised learning으로 다루기 위한 방법을 제시합니다. 높은 퀼리티의 결과를 생성하기 위한 새로운 접근법을 제공하고, 움직이는 객체를 모델링이 가능하다는 것을 보여줍니다. 주된 아이디어는 학습 프로세스에서 장면과 객체들간의 기하학적 구조를 도입하는 것이 가능합니다. 학습과정에서는 ego-motion과 object-mothin을 monocular video에 input으로 활용합니다. Introduction 실내, 실외 동일한 환경에서, robot navigation으로부터 장면을 depth하는 것은 중요합니다. 최근 방법론들은 ..
Abstract 다양한 scale로부터, depth에 대한 ground-truth를 얻는 것은 어렵습니다. 이러한 문제를 극복하기 위해, Self-Supervised Learning이 대안으로 떠오르고 있습니다. 본 논문에서는, 기존의 SSL 방법론에서 quantitatively와 qaulity를 개선한 방법을 제안합니다. 본 논문에서는, 단순한 Architecture를 보여줍니다. 주된 기여는. 1) robustly handle occulsions을 위한 mimum reprojection loss 2) visual artifact를 감소시키기 위한, full-resolution multi-scale sampling 방법 3) camera motion을 violate한 pixel을 무시하는 auto ma..
Abstract 본 논문에서는, monocular depth estimation과 관련한 새로운 접근법을 제시합니다. 이전의 방법과 유사하게, 우리의 방법론은 다른 CNN layer로부터, 파생된 multi scale information을 합치기 위해, continuous CRF를 사용합니다. 논문에서 제시하는 방법은, 기존의 방법과 다르게 다양한 feature들 사이의 저보들의 양을 자동으로 조절하는 structured attention model로부터, 많은 이득을 얻습니다. 본 논문에서 제시하는 방법은, CRF과 통합된 형태를 보이고, end-to-end로 학습하는 것이 가능합니다. Introduction 최근 CNN이 제안됨에 따라, 어떻게 estimate depth 와 semantic labe..
Siamese Networks for Stereo Matching Hand crafted features과 similarity metrics는 기하학적 모든 패턴을 고려하지 않습니다. 또한, 폐색 패턴을 고려하지 않습니다. Siamese Network는 disparity maps 기반으로 CNN patch-wise 이미지를 학습합니다. 이미지간의 관계가 feature들을 dot product 하고, WTA 를 maximization하는 방법을 찾습니다. Siamese Networks Architecture - 각각의 Simamese 의 특징들을 보여주고 있음.. , 우리는 Cosine similarity기반임. Training Triplet patch로 구성된 training set의 흐름에 대해서 설명..
Block Matching Template Matching이라고도 불립니다. 입력 영상에서 작은 크기의 부분 영상 위치를 찾아내고 싶은 경우 사용합니다. Template이란? -> 찾고자 하는 대상이 되는 작은 크기의 영상을 의미합니다. 입력 영상 전체 영역에 대해 slide를 하면서, 찾고자하는 위치와 가장 비슷한 위치를 numerical하게 찾습니다. (유사도가 높거나 or 비유사도가 낮거나) Motion Estimation - 현재 영상과 참조 영상 사이의 motion vector를 추정하는 것을 의미합니다. 즉, 두 영상 사이의 움직임 벡터를 알아내는 것을 의미함. Motion Vector를 사용하면, 영상을 압축하여 전송하는 것이 가능합니다. 아래의 그림의 K * K를 이미지 블록이라고 합니다...
Bundle Adjustment 카메라의 이미지 data들로부터 3차원 공간으로 이미지에 나타난 정보들을 모델링을 진행할 때, 카메라의 pose와 3차원 공간의 points들의 위치를 추정할 때 필요한 최적화 기법 중 하나이다. 3D Reconstruction을 진행할 때, Lidar나 Depth Camera같은 거리 값을 이용하는 것이 아니라 2D image들의 묶음으로만 3D 복원을 진행합니다. 보통 SIFT와 같은 특징점을 찾는 알고리즘을 이미지에서 수행하고, Triangulation과 같은 과정을 거쳐, Point들이 어디에 위치하고 있는지 추정을 합니다. Bundle Adjustment는 Bundle Block Adjustment라고도 불리는데, 이러한 이유는 Block 단위로 수행하여, 많은 ..
Epipolar Geometry 동일한 사물 또는 장면에 대한 영상을 서로 다른 두 지점에서 획득하였을 때, 영상 A와 영상 B의 매칭쌍들 사이의 기하학적 관계를 다루는 것을 의미합니다. R 과 T는 각각 회전 행렬(Rotation Matrix), 평행 이동 벡터(translation vector)를 나타내는 변수입니다. x와 2개의 카메라의 원점을 이은 평면은 epipolar plane이라고 하며, 카메라 원점과 x를 이은 선을 epipole이라고 합니다. x2 x Rx = 0 이라면, x*Ex라고 할 수 있고, 그렇다면 이 E를 essential matrix라고 하고, epipolar contsraint라고 할 수 있습니다. Epipolar constraint는 Epipolar line 위에 존재하는..
Abstract Point cloud는 geometric data structure의 형태를 갖추고 있습니다. 본 논문에서는, Point clouds를 직접 다루는 Neural Network를 설계하였으며, Empty space가 아닌 input으로써 point의 불변성을 잘 다루게 됩니다. Segmentation, Detection, classification에서모두 활용될 수 있음을 보여줍니다. 이후, 우리는 어떤 Network가 무엇을 학습하는지 robust 한 이유에 대해서 언급합니다. Introduction 최근 방법론들은 Point cloud를 input으로 이용한 모델들을 제공합니다. Point cloud는 mesh처럼, 이뤄진 것이 아니기에 더 다루기 쉬운 모델일 수 있습니다. 하지만, P..