일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- nerf
- Torch
- math
- SSL
- CV
- algorithm
- dl
- 알고리즘
- cs
- Meta Learning
- Vision
- pytorch
- web
- ML
- FGVC
- PRML
- Python
- classification
- 자료구조
- clean code
- Front
- nlp
- GAN
- FineGrained
- Depth estimation
- 딥러닝
- computervision
- 머신러닝
- 3d
- REACT
- Today
- Total
목록ML (148)
KalelPark's LAB
Segmentation 및 Estimation 논문을 읽다보니, 자주나오는 용어이다. Unary potential은 이미지, 텍스트 등의 입력 데이터에서 각각의 특성이 얼마나, 특정 클래스에 속하는지를 측정하는데 사용하는 함수이다. Vision에서는 Pixel에 해당하는 클래스에 속할 확률을 계산합니다. 일반적으로, 확률 분포를 모델링하는데 사용되는 함수로, 다양한 형태로 나타내는 것이 가능합니다. Unary Potential은 학습 중에 가중치를 조정함으로써, 입력 특성을 올바르게 분류하도록 돕습니다. 학습을 진행하면서, 데이터의 손실 함수를 최소화 하도록 가중치를 조정하면서, 모델이 올바르게 예측하는 것을 최대화하려고 합니다. 예를 들어, 이미지 분할에서 unary potential은 차량의 특징인 ..
Abstract 본 논문에서는, monocular depth estimation과 관련한 새로운 접근법을 제시합니다. 이전의 방법과 유사하게, 우리의 방법론은 다른 CNN layer로부터, 파생된 multi scale information을 합치기 위해, continuous CRF를 사용합니다. 논문에서 제시하는 방법은, 기존의 방법과 다르게 다양한 feature들 사이의 저보들의 양을 자동으로 조절하는 structured attention model로부터, 많은 이득을 얻습니다. 본 논문에서 제시하는 방법은, CRF과 통합된 형태를 보이고, end-to-end로 학습하는 것이 가능합니다. Introduction 최근 CNN이 제안됨에 따라, 어떻게 estimate depth 와 semantic labe..
SAD(Sum of Absolute) Stereo Matching에서 기초적으로 사용하는 방법입니다., Depth Image를 생성하기 위해서, 가장 근본적인 문제는 "왼쪽 용상의 픽셀이 오른쪽 영상 픽셀의 어디와 유사한지 파악할 때 사용됩니다." 이때, 필요한 조건은 두대의 카메라의 광축 (Optical Axis)를 평행하게 해야 합니다. 이는 카메라의 Epipolar line과 두대의 카메라 base line과 평행하게 해야합니다. (이러한 조건을 만족하지 못하면, Stereo Matching 문제는 2차원에서 해결해야되므로 상당히 시간소모가 많이 되어, 1차원 문제로 해결해야 합니다.) 먼저 픽셀과 픽셀을 비교하여, 차이를 계산하면 간단하게 픽셀간의 유사성을 측정하는 것이 가능합니다. 이는 해당하는..
Point Cloud 아래의 코드를 보면, PLYPointCloud 객체를 한 곳에 지정해주고, point_cloud로 pcd파일을 읽고, pcd 파일을 출력하는 코드입니다. read point cloud : 파일로부터, point cloud를 읽고, 파일을 포인트 형태로 decoding을 합니다. draw geometries : mouse/trackpad를 활용하여, 여러 view를 생성하는 것이 가능합니다, import open3d as o3d import numpy as np import os import sys print("Load a ply point cloud, print it, and render it") ply_point_cloud = o3d.data.PLYPointCloud() pcd =..
Stereo Vision이란? 사람의 시각 시스템을 모방한 기술이며, 자율 주행 자동차등의 관심이 높아짐에 따라, 라이더 및 레이더 센서 기술을 대체할 수 있는 기술로 관심을 받고 있습니다. 사람은 두 눈으로부터 좌/우 차이가 존재하는 2차원의 영상을 입력받고, 입력 받은 영상을 인간의 뇌로 부터 융합되는 과정을 통해3차원의 거리 감을 인지합니다. 이와 마찬가지로, Stereo Vision은 카메라를 통해, 입력되는 2차원의 좌/우 영상을 계산하면서 3차원 거리 정보를 획득하는 것이 가능합니다. * 거리 계산 방법 - 3차원 거리 정보는 시차(Parllax, disparity), 초점 거리(focal length), 베이스라인(baseline) 3가지 요소를 고려하여, 획득합니다. - 시차(Dispari..
Abstract Learning based Method는 single Image로부터 depth를 추정하는데 상당히 좋은 결과를 보여주었지만, 기존의 접근법은 상당히 많은 데이터가 필요하다는 문제가 있습니다. 본 논문에서는, training동안에 데이터를 쉽게 얻을 수 있는 binocular stereo footage training을 사용함으로써, 기존의 depth data를 대체합니다. 우리는 새로운 training loss를 도입함으로써, 기존의 학습하는 동안 생성하는 disparity image의 quality를 향상시킵니다. 즉, 하나의 이미지를 좌우측에서의 비교하여, disparity를 파악함으로써, 성능을 개선하거나 기존의 방법론을 Robust하게 합니다. Introduction 기존의 De..
우선, Depth Estimation이란 말 그대로 영상에서 깊이를 그대로 추정하는 것을 의미합니다. 컴퓨터는 사진만 보고, 사진 내 존재하는 객체를 추정하기 어려워 합니다. 따라서 깊이를 추정하기 위해 train하는 것을 말합니다. 하단의 그림을 보다시피, 가까운 부분은 밝은색, 어두운 부분은 보라색임을 알 수 있습니다. Depth Estimation이란, Stereo와 Mono가 존재합니다. Mono Depth Estimation은 말 그대로 하나의 image만을 가지고, Depth를 추정하는 방식입니다. Depth를 추정할 때는, Stereo Camera로 찍은 left image와 right image가 필요합니다. left image와 right image로부터 차이가 얼마나는지 파악함으로써, ..
Abstract 최근 거대한 데이터셋으로의 NLP의 성공이 Computer Vision에도 유사한 방식으로 혁신을 보여주고 있습니다. 이러한 방법은, 선별된 데이터셋에서만 사용이 가능합니다. 우리는 기존 방식을 재검토하고, 다양한 기술을 결합하여 데이터 및 모델의 크기 측면을 확장합니다. 대부분 기술적 기여는 학습의 규모를 안정화하거나 가속화를 진행합니다. Introduction task에 구애받지 않은 표현력 학습을 하는 것은 NLP에서는 기본이 되어왔습니다. NLP에서의 영향을 받아, Vision에도 상당한 영향을 미치고 있습니다. 대부분 유망한 노력은 text-guided pretraining에 초점이 되어왔으며, feature를 학습하는데 상당한 기여를 해왔습니다. Caption은 이미지의 풍부한..