KalelPark's LAB

[ Computer Vision ] Unsupervised Monocular Depth Estimation with Left-Right Consistency 본문

Data Science/Depth Estimation

[ Computer Vision ] Unsupervised Monocular Depth Estimation with Left-Right Consistency

kalelpark 2023. 4. 30. 00:30

Abstract

Learning based Method는 single Image로부터 depth를 추정하는데 상당히 좋은 결과를 보여주었지만, 기존의 접근법은 상당히 많은 데이터가 필요하다는 문제가 있습니다. 본 논문에서는, training동안에 데이터를 쉽게 얻을 수 있는 binocular stereo footage training을 사용함으로써, 기존의 depth data를 대체합니다.
 우리는 새로운 training loss를 도입함으로써, 기존의 학습하는 동안 생성하는 disparity image의 quality를 향상시킵니다. 즉, 하나의 이미지를 좌우측에서의 비교하여, disparity를 파악함으로써, 성능을 개선하거나 기존의 방법론을 Robust하게 합니다.

Introduction

기존의 Depth Estimation 방법은 multiple viewpoint를 사용하거나, 다양한 장면을 관찰을 통하여, depth를 추정하였습니다. 하지만 이러한 방법은 각 이미지의 픽셀별 depth에 대한 상당히 많은 데이터가 요구됩니다. Machine perception에서 single image로부터 장면의 형태를 이해하는 것은 machine perception에서 중요하게 다루는 문제이다. 최근에는 여러 Application에서Computer Graphics, synthetic depth of field, grasping in robotics, pose estimation, robot assisted surgery, 자율주행 등에서 많이 활용되고 있습니다.

사람들은 주변의 정보로부터 depth를 추정합니다. 특히 lighting, shading, occlusion을 단서로써 많이 활용합니다. Top-down or bottom-up과 같은 단서의 결합은 depth를 명확히 추정하는 능력에 활용될 수 있습니다. 본 논문에서 제안하는 모델은 depth data가 필요하지 않으며, 대신 즉각적으로, Depth를 학습하도록 하였습니다. 위 방법은 알려진 카메라에 기반으로 stereo image 쌍간의 Pixel level을 예측하는 방법을 학습합니다. 

 

본 논문의 주된 기여는 아래와 같습니다.

1) Network는 network내 이미지의 좌측과 우측을 통하여 얻은 depth를 일반화하기 위한 training loss를 사용하여, 주변 정보 없이
    depth estimation을 추정합니다.

 

2) image formation과 training loss를 통하여, 학습하고, 2가지 데이터셋에서 State-of-the art를 달성합니다.

Related Work

기존의 여러 연구에서는 pair를 활용하거나, 다양한 view로부터 얻은 image를 overlapping하는 방식을 활용하거나, 고정된 카메라를 활용하는 방식을 사용합니다. 우리의 방법론은 monocular depth estimation과 관련이 있고, 하나의 이미지로부터 학습하는 것이 가능합니다. 또한 geometry 장면 혹은 객체에 대한 가정이 따로 필요하지 않습니다.

Learning-Based Stereo

대부분의 Stereo estimation algorithm은 첫 번째 이미지의 Pixel과 두 번째 이미지의 pixel 상이의 유사성을 파악하는 용어를 지니고 있습니다. 일반적으로, stereo pair는 수정되는 것이 가능하고, disparity estimation 문제는 각 pixel에 대한 1d search problem으로 생각할 수 있습니다. 이러한 방법을 활용한 기존 DispNet은 우리의 end-end와 유사하지만, 상당히 많은 데이터셋이 필요하다는 단점을 지니고 있습니다. 현실세계에서의 문제를 해결하고자 한다면, 새로운 데이터를 계속해서 필요하고, 학습시켜야 여러 Application에 활용할 수 있다는 단점을 지니고 있습니다.

Supervised Single Image Depth Estimation

Single view, monocular, depth estimation은 테스트시 단일 이미지만을 사용할 수 있는 문제 설정을 설명합니다. 기존 연구에서는 Patch 기반의 모델인 Make3D를 활용하였습니다. 이 방법은 patch 내 input 이미지를 over-segment하고, 3d location과 local plane의 orientation을 추정합니다. 평면 매개 변수를 활용하는 방법은 레이저 스캔 데이터셋을 활용하고, MRF를 활용하여 결합된 예측을 진행합니다. 이러한 문제의 단점은 얇은 구조를 모델링하데 어려움이 있으며, 예측을 locally하게 예측을 하기 때문에 현실적인 Output을 생성하기 위해서는 global context가 필요합니다. 우리의 방법론은 single depth image estimation을 활용하며, ground truth depth를 상룡하는 대신에 binocular color를 사용하여 학습을 진행합니다.

Unsupervised Depth Estimation

최근 Deep Stereo라는 image synthesis network가 도입되었습니다. 이러한 방법은 image 근처의 pixel에 대한 정보를 선택적으로 활용함으로써, 새로운 view를 생성합니다. training 동안에는 여러 카메라의 상대적인 pose를 사용하여, 주변 이미지의 apperance를 예측합니다. 이후, 적절한 깊이를 선택하여, 인접 영상에서 색상들을 샘플링을 진행합니다. 또한, Deep3D Network는 novel view synthesis 문제를 다루기 위한 방법을 제안합니다. 위 방법은 left image input으로부터 right view에 대응하는 장면 binocular pair에서 생성하도록 다룹니다. image reconsturction loss를 반복적으로 사용함으로써, 각 pixel에 대한 모든 불일치한 분포를 생성하도록 합니다. 이미지 형성 모델의 단점은 상당히 많은 메모리가 사용된다는 점과, bigger output resolution을 만드는 것이 어렵습니다.  본 논문에서는 DispNet Architecture로부터 영감을 받아, 제안을 합니다. image reconstruction problem으로부터 monocular depth estimation을 하기 위해, 우리는 disparity field 문제를 해결합니다. 하지만, photometric loss만을 최소화하는 것은 depth는 추정하지 못하지만, image만을 해상도를 높일 수 있습니다. 또 다른 관점에서는 우리는 완전히 차별화 가능한 훈련 loss에서 synthesized depth image의 질을 개선하기 위한 left-right consistency를 사용합니다. 이러한 유형의 일관성 검사는 많은 stereo method에서 후처리 방법으로 사용되지만, 본 논문에서는, 제안한 모델에 직접 통합됩니다. 

Method

본 Section에서는, 내장된 left-right consistency check featuring하는 방법인 새로운 depth estimation training loss를 설명합니다. 이 방법은 Label없이 학습하는 것이 가능합니다. 

Depth Estimation as Image Reconstruction

본 목표는, Single Image를 활용하여 depth를 추정하도록 학습시켜야 합니다. 기존의 방법론은 Color Image로부터 depth value와 대응되도록 학습시켰습니다.  이러한 방법은 상대적으로 많은 데이터가 필요하기 때문에 실용적이지 않습니다. 비록 레이져나 값 비싼 하드웨어도 움직임과 반사가 특징인 곳에서는 부정확한 오류가 있습니다. 이러한 문제의 대안으로, 우리는 training 동안, image reconstruction problem으로 pose depth estimation을 활용합니다. 양안 카메라의 쌍을 고려하여, 만약 우리가 다른 이미지로부터 또 다른 이미지를 추정하는 함수를 학습하는 것이 가능하다면, 우리는 3D shape을 생성하다는 직관을 가질 수 있습니다.

Training동안에는, 우리는 Calibrated stereo pair로부터 이미지를 얻고, 명확히 depth를 추정하는 대신에, 우리는 왼쪽 이미지로부터, 오른쪽 이미지의 depth를 예측하도록 학습시킵니다. 즉 left image와 추정한 오른쪽 이미지 depth로 right image를 만들도록 학습합니다. 반대도 가능합니다. 카메라의 카메라의 focal length의 거리로부터, 예측된 불일치에 대한 depth를 추정하려고 시도합니다. d=bf/d.

Depth Estimation Network

High level에서, 모델은 좌우측 이미지간의 불일치를 추정함으로써 depth를 예측합니다. 우리의 방법론은 단지 한쪽 이미지를 활용하여 left-to-right과 right-to-left를 추정하는 것이 가능합니다. 또한, 각각을 일관성 있게 강화함으로써, 더 추정을 잘하도록 학습시키는 것이 가능합니다. 본 논문의 방법론은 bilinear sampler를 활용하여 backward mapping과 predicted image를 생성하는 것이 가능합니다. 

novel left-right consistency cost를 활용하여, disparity maps간의 일관성을 강화하면 더 정확한 결과를 얻는 것이 가능합니다.

Training Loss

training Loss는 총 3가지로 구성되어 있습니다.

Appearance Matching Loss

training 동안에, network는 stereo image에서, pixel을 sampling하여 이미지를 생성하도록 학습니다. 우리의 image formation model은 STN의 image sampler를 사용하여, disparity map을 활용한 input image를 샘플링합니다. STN은 4개의 input pixel의 가중합인 output pixel을 bilinear sampling으로 활용합니다. 본 논문에서는 L1과 single scale SSIM을 결합하여, pixel에 대한 loss를 측정합니다.

Disparity Smoothness Loss

본 논문에서는  disparity gradient를 위하여 L1 penalty를 사용하여, locally smooth를 생성하도록 합니다. 우리는 image gradient를 활용하여, depth의 불연속성이 image gradient에서 종종발생하여, 논문에서는 image gradient를 사용하는 edge-aware term을 loss로 활용합니다. (경계 영역에서 끊어짐 등이 발생하지 않도록 측정하는 loss 입니다. )

Left-Right Disparity Consistency Loss

정확한 disparity maps을 생성하기 위해, left, right image의 disparity를 활용합니다. 하지만, 단지 CNN에는 left view만을 input으로 사용합니다. 일관성을 늘리기 위해, 우리는 l1 left-right disparity consistency penalty를 model에 사용합니다. 또한, left-view disparity map을 사영할 때, right-vierw disparity map을 생성하도록 합니다.

Appearance Matching Loss,    Disparity Smoothness Loss,     Left-Right Disparity Consistency Loss

Result

Conclusion

본 논문에서는 single image depth estimation을 제시합니다. 또한, 논문에서 사용하는 loss function은 training 동안 카메라로부터 얻은 depth map들 사이에서의 일관성을 향상시킵니다. 또한 우리의 결과는 unseen dataset에서도 일반화된 성능을 낼 수 있으며, 납득할 수 있는 depth map을 visualization하는 것이 가능합니다.

 

Reference

https://arxiv.org/abs/1609.03677

 

Unsupervised Monocular Depth Estimation with Left-Right Consistency

Learning based methods have shown very promising results for the task of depth estimation in single images. However, most existing approaches treat depth prediction as a supervised regression problem and as a result, require vast quantities of correspondin

arxiv.org

 

 
Comments