일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 3d
- ML
- math
- 자료구조
- Meta Learning
- 딥러닝
- REACT
- GAN
- classification
- web
- algorithm
- Front
- nlp
- CV
- clean code
- nerf
- dl
- Python
- Depth estimation
- Torch
- 머신러닝
- pytorch
- FGVC
- 알고리즘
- SSL
- computervision
- PRML
- Vision
- FineGrained
- cs
- Today
- Total
목록CV (110)
KalelPark's LAB
SAD(Sum of Absolute) Stereo Matching에서 기초적으로 사용하는 방법입니다., Depth Image를 생성하기 위해서, 가장 근본적인 문제는 "왼쪽 용상의 픽셀이 오른쪽 영상 픽셀의 어디와 유사한지 파악할 때 사용됩니다." 이때, 필요한 조건은 두대의 카메라의 광축 (Optical Axis)를 평행하게 해야 합니다. 이는 카메라의 Epipolar line과 두대의 카메라 base line과 평행하게 해야합니다. (이러한 조건을 만족하지 못하면, Stereo Matching 문제는 2차원에서 해결해야되므로 상당히 시간소모가 많이 되어, 1차원 문제로 해결해야 합니다.) 먼저 픽셀과 픽셀을 비교하여, 차이를 계산하면 간단하게 픽셀간의 유사성을 측정하는 것이 가능합니다. 이는 해당하는..
OpenCV에서는, 이미지를 단계적으로 축소하는 Module이 존재합니다. 이를, 이미지 피라미드(Image Pyramid)라고 하는데 피라미드처럼, 단계적으로 확대하거나 축소하는 작업을 말합니다. Pyramid 방식에는 2가지가 존재합니다. - Gaussian Filter (가우시안 Method) - Gaussian Filter를 적용한 뒤, 이미지 피라미드를 구성하는 것을 의미하고, 아래와 같이 활용합니다. * DownSampling의 예이며, 입력 영상을 dst parameter에 따라 이미지를 변환합니다. pyrDown()은 가우시안 필터를 적용한 뒤 모든 짝수 행과 열을 삭제하고, 입력 영상을 축소합니다. 반면 cv2.pyrUp()은 0으로 채워진 행정방행렬을 삽입하고 주변 픽셀과 유사한 값으로..
Point Cloud 아래의 코드를 보면, PLYPointCloud 객체를 한 곳에 지정해주고, point_cloud로 pcd파일을 읽고, pcd 파일을 출력하는 코드입니다. read point cloud : 파일로부터, point cloud를 읽고, 파일을 포인트 형태로 decoding을 합니다. draw geometries : mouse/trackpad를 활용하여, 여러 view를 생성하는 것이 가능합니다, import open3d as o3d import numpy as np import os import sys print("Load a ply point cloud, print it, and render it") ply_point_cloud = o3d.data.PLYPointCloud() pcd =..
Stereo Vision이란? 사람의 시각 시스템을 모방한 기술이며, 자율 주행 자동차등의 관심이 높아짐에 따라, 라이더 및 레이더 센서 기술을 대체할 수 있는 기술로 관심을 받고 있습니다. 사람은 두 눈으로부터 좌/우 차이가 존재하는 2차원의 영상을 입력받고, 입력 받은 영상을 인간의 뇌로 부터 융합되는 과정을 통해3차원의 거리 감을 인지합니다. 이와 마찬가지로, Stereo Vision은 카메라를 통해, 입력되는 2차원의 좌/우 영상을 계산하면서 3차원 거리 정보를 획득하는 것이 가능합니다. * 거리 계산 방법 - 3차원 거리 정보는 시차(Parllax, disparity), 초점 거리(focal length), 베이스라인(baseline) 3가지 요소를 고려하여, 획득합니다. - 시차(Dispari..
Abstract Learning based Method는 single Image로부터 depth를 추정하는데 상당히 좋은 결과를 보여주었지만, 기존의 접근법은 상당히 많은 데이터가 필요하다는 문제가 있습니다. 본 논문에서는, training동안에 데이터를 쉽게 얻을 수 있는 binocular stereo footage training을 사용함으로써, 기존의 depth data를 대체합니다. 우리는 새로운 training loss를 도입함으로써, 기존의 학습하는 동안 생성하는 disparity image의 quality를 향상시킵니다. 즉, 하나의 이미지를 좌우측에서의 비교하여, disparity를 파악함으로써, 성능을 개선하거나 기존의 방법론을 Robust하게 합니다. Introduction 기존의 De..
우선, Depth Estimation이란 말 그대로 영상에서 깊이를 그대로 추정하는 것을 의미합니다. 컴퓨터는 사진만 보고, 사진 내 존재하는 객체를 추정하기 어려워 합니다. 따라서 깊이를 추정하기 위해 train하는 것을 말합니다. 하단의 그림을 보다시피, 가까운 부분은 밝은색, 어두운 부분은 보라색임을 알 수 있습니다. Depth Estimation이란, Stereo와 Mono가 존재합니다. Mono Depth Estimation은 말 그대로 하나의 image만을 가지고, Depth를 추정하는 방식입니다. Depth를 추정할 때는, Stereo Camera로 찍은 left image와 right image가 필요합니다. left image와 right image로부터 차이가 얼마나는지 파악함으로써, ..
Abstract 최근 거대한 데이터셋으로의 NLP의 성공이 Computer Vision에도 유사한 방식으로 혁신을 보여주고 있습니다. 이러한 방법은, 선별된 데이터셋에서만 사용이 가능합니다. 우리는 기존 방식을 재검토하고, 다양한 기술을 결합하여 데이터 및 모델의 크기 측면을 확장합니다. 대부분 기술적 기여는 학습의 규모를 안정화하거나 가속화를 진행합니다. Introduction task에 구애받지 않은 표현력 학습을 하는 것은 NLP에서는 기본이 되어왔습니다. NLP에서의 영향을 받아, Vision에도 상당한 영향을 미치고 있습니다. 대부분 유망한 노력은 text-guided pretraining에 초점이 되어왔으며, feature를 학습하는데 상당한 기여를 해왔습니다. Caption은 이미지의 풍부한..
Collapse란? "Collapse"는 모델의 학습 과정에서 출력 값이 제한된 범위로 수렴하거나, 제한된 값만을 출력하는 현상을 의미합니다. 예를 들어, 모델이 다양한 입력에 대해 동일한 출력 값을 예측하거나, 출력 값이 특정 값으로 수렴하는 경우 "collapse"가 발생합니다. 2가지 예시가 존재합니다. GAN) Generator 와 Discirminator를 균형있게 학습시켜야 하는데, Discriminator가 학습속도가 너무 빨라지는 경우가 있다. 이 경우, GAN은 "진짜" 같은 이미지를 생성하는 목적은 잃어 버리고, discriminator가 헷갈릴만한 그림만 만드는 과정을 의미한다. 이를 Mode Collapse라고 한다. Representation Learning) Contrastive..