일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- math
- ML
- classification
- Meta Learning
- nlp
- 알고리즘
- cs
- web
- Torch
- GAN
- Front
- FGVC
- REACT
- FineGrained
- computervision
- 머신러닝
- clean code
- 딥러닝
- pytorch
- 자료구조
- algorithm
- SSL
- dl
- nerf
- PRML
- Python
- 3d
- Depth estimation
- Vision
- CV
- Today
- Total
목록ML (148)
KalelPark's LAB
Block Matching Template Matching이라고도 불립니다. 입력 영상에서 작은 크기의 부분 영상 위치를 찾아내고 싶은 경우 사용합니다. Template이란? -> 찾고자 하는 대상이 되는 작은 크기의 영상을 의미합니다. 입력 영상 전체 영역에 대해 slide를 하면서, 찾고자하는 위치와 가장 비슷한 위치를 numerical하게 찾습니다. (유사도가 높거나 or 비유사도가 낮거나) Motion Estimation - 현재 영상과 참조 영상 사이의 motion vector를 추정하는 것을 의미합니다. 즉, 두 영상 사이의 움직임 벡터를 알아내는 것을 의미함. Motion Vector를 사용하면, 영상을 압축하여 전송하는 것이 가능합니다. 아래의 그림의 K * K를 이미지 블록이라고 합니다...
Abstract CLIP과 같이, Vision-Language Model의 영향력이 증가함으로써, 다운스트림에서 테스트 하는 것은 필수입니다. 본 연구에서 우리는 CoOp의 문제점을 파악하고, Learned context는 동일한 데이터세트에서 일반화가 가능하는 것을 시사하며, CoOp은 학습도중에 Overfitting이 발생함을 언급합니다. 이러한 문제를 다루기 위해 본 논문에서는 Conditional Context Optimization(CoCoOp)을 설명합니다. 기존의 방법론과 비교했을 때, 우리의 dyanmaic prompts는 each instance를 채택하고, class의 변화에 민감하지 않습니다. Introduction VLM과 관련하여, 전반적인 설명을 하고 있습니다. automate ..
ColMap이란? Structure-from-Motion과 Multi-View Stero와 같은 3D reconstructure Pipeline을 생성하는 것입니다. 즉, 2D Image를 3D로 복원해주는 tool입니다. (Struction from Motion(SFM)이라고도 합니다.) Focal Length : 렌즈 중심과 이미지 센서 사이의 거리를 의미합니다. (단위는 Pixel) 예를들어, f_x 와 f_y가 존재하는 이유는 이미지 센서의 셀의 거리 세로/가로 길이가 다르기 때문입니다. 즉, f_x는 렌즈 중심으로부터 이미지 센서까지의 초점거리가 셀의 가로 길이가 몇배인지 나타냅니다. Feature Detection & Description SIFT란? 이미지의 크기와 회전에 불변하는 특징점을 ..
Stereo Reconstruction 어떻게 이미지로부터, dense한 3D를 생성할 수 있는가? Binocular Stereopsis 이미지로부터, 객체의 깊이를 추정하는 것을 설명합니다. Stereoscopic rangefinder는 관찰자로부터 대상까지의 거리를 측정하는 최적의 장치라고 볼 수 있습니다. 프리즘은 Mark에 객체가 기기기의 combined view에 중첩될 때까지 회전됩니다.범위는 회전된 만큼 입니다. Two-View Stereo Matching 1. Calibration Camera : 카메라의 내부 파라미터 및 외부 파라미터를 구합니다. 2. Recitfy images : Calibration Camera를 고려하여, 이미지를 수정합니다. 3. Compute disparity ..
Abstract Transformer는 상당한 표현력을 지니고 있지만, high-resolution images와 같이 long sequence에 대해서는 상당히 계산이 취약합니다. 본 논문에서는 어떻게 CNN의 inductive bias와 transformer의 표현력을 어떻게 결합해야하는지 증명하고, 고해상도 이미지를 만드는 방법을 언급합니다. 또한, CNN을 사용하여 Image constituents의 context-rich vocabulary를 어떻게 학습하는지 보여주고, transformer를 활용하여 high-resolution images의 구성을 효율적으로 모델링하는 방법을 성명합니다. 우리의 접근법은 object class, spatial information과 같은 비공간적 정보를 가진..
Bundle Adjustment 카메라의 이미지 data들로부터 3차원 공간으로 이미지에 나타난 정보들을 모델링을 진행할 때, 카메라의 pose와 3차원 공간의 points들의 위치를 추정할 때 필요한 최적화 기법 중 하나이다. 3D Reconstruction을 진행할 때, Lidar나 Depth Camera같은 거리 값을 이용하는 것이 아니라 2D image들의 묶음으로만 3D 복원을 진행합니다. 보통 SIFT와 같은 특징점을 찾는 알고리즘을 이미지에서 수행하고, Triangulation과 같은 과정을 거쳐, Point들이 어디에 위치하고 있는지 추정을 합니다. Bundle Adjustment는 Bundle Block Adjustment라고도 불리는데, 이러한 이유는 Block 단위로 수행하여, 많은 ..
Orthographic Factorization W는 N frame을 통해 추적된 P feature point를 나타낸다고 가정합시다.W를 고려하여, camera motion과 structure를 복원하는 것입니다. 참고 : https://soohee410.github.io/orthogonal_projection 일반화를 위해서, 3D coordinate system은 Center에 있다고 가정을 합니다 이후, SVD에 관련하여, 기하학적 설명이 나옵니다. SVD와 Cholesky decomposition을 찾아보면 좋을 것 같습니다.. :) -> 추후 업로드 예정 참고 : https://darkpgmr.tistory.com/106
Epipolar Geometry 동일한 사물 또는 장면에 대한 영상을 서로 다른 두 지점에서 획득하였을 때, 영상 A와 영상 B의 매칭쌍들 사이의 기하학적 관계를 다루는 것을 의미합니다. R 과 T는 각각 회전 행렬(Rotation Matrix), 평행 이동 벡터(translation vector)를 나타내는 변수입니다. x와 2개의 카메라의 원점을 이은 평면은 epipolar plane이라고 하며, 카메라 원점과 x를 이은 선을 epipole이라고 합니다. x2 x Rx = 0 이라면, x*Ex라고 할 수 있고, 그렇다면 이 E를 essential matrix라고 하고, epipolar contsraint라고 할 수 있습니다. Epipolar constraint는 Epipolar line 위에 존재하는..