KalelPark's LAB

[Computer Vision] Structured attention guided convolutional neural fields for monocular depth estimation 본문

Data Science/Depth Estimation

[Computer Vision] Structured attention guided convolutional neural fields for monocular depth estimation

kalelpark 2023. 5. 1. 17:04

Abstract

본 논문에서는, monocular depth estimation과 관련한 새로운 접근법을 제시합니다. 이전의 방법과 유사하게, 우리의 방법론은 다른 CNN layer로부터, 파생된 multi scale information을 합치기 위해, continuous CRF를 사용합니다. 논문에서 제시하는 방법은, 기존의 방법과 다르게 다양한 feature들 사이의 저보들의 양을 자동으로 조절하는 structured attention model로부터, 많은 이득을 얻습니다. 본 논문에서 제시하는 방법은, CRF과 통합된 형태를 보이고, end-to-end로 학습하는 것이 가능합니다. 

Introduction

최근 CNN이 제안됨에 따라, 어떻게 estimate depth 와 semantic label을 다루는지 많은 연구가 되고 있고, 어떻게 강건하게 모델을 생성하는지, 어떻게 multi-scale feature를 생성하는지 연구가 되고 있다. 본 논문에서는 multi-scale features를 어떻게 combine하는지에 대해 초점을 맞춥니다. 즉, 본 논문은 mutli-scale monocular depth estimation과 같은 graphical models의 유연성을 활용하기 위한 방법을 제안합니다. 해당 방법론은 prediction level에서 더 정확한 추정이 가능하고, 내부의 feature들을 활용하는 것이 가능합니다. 이러한 목표를 달성하기 위해, 우리는 attention mechanism에 의하여, 자동적으로 robust multi-scale feature를 학습하는 CRF model을 제시합니다. 우리는 또한 attention variable CRF inference 동안 multi-scale feature representation을 함께 추정하는 것이 가능하다는 것을 보여줍니다. 

본 논문의 주된 기여는 아래와 같습니다.

 

1) Multi-scale CRF 와 CNN과 이음새 없이 연결된 것을 활용하여, 이미지로부터 depth를 추정하는 방법을 제시합니다. 이전의 연구와 다르게 prediction map을 고려하지 않으며, feature level에서 작동합니다. 무엇보다도, unary 와 pairwise potentials을 사용하면ㅇ서, 상당히 빠른 추론이 가능합니다.

 

2) 우리의 접근법은 multiple scale로부터 얻은 feature를 robust하기 위한 attention mechanism을 제시하고, structured
     information과 함께 사용됩니다.

* 그림에서의 (d)가 본 논문의 Method를 적용한 것입니다.

Related Work

monocular Depth Estimation

Depth Estimation은 최근에 상당히 많은 관심을 이끌었습니다. 초기의 연구에서는 hand-crafed feature를 사용하였고, 2가지 CNN을 사용하였습니다. 첫 번째 CNN은 corse scale로부터, depth를 추정하고, 두 번째 CNN은 prediction을 정제하였습니다. 최근의 연구에서 jointely prediction depth와 semantinc segmentation을 join하여 multi-tasking 전략을 사용하는 것은 상당한 benefit이 되었습니다. 우리는 기존의 연구와 다르게 attention mechanism을 활용하여, depth estimation에서 사용합니다. 

 

Fusing Multi-scale information in CNNs.

최근 많은 연구에서, pixel-level prediction task에서는 Multi-scale information을 결합하는 방법이 주로 사용되었습니다. 우리가 제안하는 attention method는 CRF-CNN framework 내에 포함되어 있으며, structured attention model로써 사용 가능합니다.

Estimating Depth Maps with Structued Attention Guided Conditional Neural Fields

해당 Section에서는 image로부터, depth maps을 추정하는 접근법을 다룹니다. 첫 번째로, 전체적인 개요를 다루고, structed attention을 활용하는 CRF model을 설명합니다. 

Problem Formulation and Overview

Single RGB image로부터, depth를 예측하는 문제는 supervised learning로 인지할 수 있습니다. 본 논문에서 제안하는 방법은 CNN과 CRF로 구성되어 있습니다. CRF의 주된 목적은 CNN의 inner layer로부터 얻은 정보를 활용하고자 하는 것입니다. 기존의 방법과 다르게 우리의 방법론은 단순히 CNN의 예측을 개선하기 위해서 사용하는 것도 아니고, 같은 size의 score map을 input으로 사용하기 위한 것도 아닙니다. 본 논문에서는, front-end layer로부터 얻은 여러 multi-scale feature을 input으로 모델이 유연하게 사용함으로써, 더 나은 결과를 추정할 수 있음을 주장합니다. 모델을 용이하게 하기 위해서, 모든 multi-scale feature map은 size를 동일하게 변환합니다.

주된 아이디어는 각 layer로부터 auxiliary feature를 얻고, last layer로부터 얻은 feature를 모두 결합하여, 학습시킵니다. 본 논문에서는 latent feature map을 학습하기 하는 것을 제안합니다 또한, last layer로부터 얻은 표현과 적절한 attention model을 활용함으로써  모델을 학습시킵니다. 직관적으로, pixel에 대한 final scale과 각각의 intermediate scale 간의 정보를 허용하면서, regularization합니다.

Model은 attention map을 학습을 진행하면서, final depth estimation과 관련된 CCN representation로부터 정보를 얻습니다. 게다가, 정확한 attention map을 얻으면서, 구조화된 attention model을 학습하는 것을 제안합니다. 우리는 추정한 변수들에 제약을 가함으로써 이웃한 pixel들간의 관계를 파악하는 것을 향상시킵니다.

Structred Attention Guided Multi-Scale CRF

Proposed Model

* 해당부분에서는, 제안한 부분을 수식으로 설명합니다.      ( Ψ -> 프시, Φ -> 피 ,  Ξ -> 크사이 라고 읽습니다. )

3가지 기호로 Energy function을 생성하는데 하나씩 살펴보도록 하겠습니다.  좌측의 경우, Energy function을 의미하고, 우측의 피로 이뤄져 있는 함수는 단항 퍼텐셜의 합입니다. Unary term은 CNN 연산을 통하여 얻을 수 있으며, Pixel간의 detail한
예측에 중요한 역할을 합니다. (각 pixel별로 label assignment 확률과 관련되어 있습니다.)

크사이의 경우, 각각의 layer로부터 얻은 feautre들간의 관계를 modeling합니다. 이후 마지막, 프시는 attention variables사이의 제약관계를 향상시키는데 초점을 둡니다. Computational cost limited함으로써, 같은 scale 간의 변수들만에 attention을 고려하기 합니다.
Deriving Mean-Field Updates
기존 연구로부터, 우리는 mean-filed approximate를 진행합니다. latent feature와 attention variable간의 mean-field inference equation을 도출하는 것이 가능합니다. 

* 아래의 수식과 같은 경우, mean-field를 추정하는 방법과 update하는 방법을 수식적으로 증명합니다.

이러한 방식을 사용함으로써, 우리는 latent multi-scale representation과 attention variables을 추론하는 것이 가능하고, neural network에 mean field update를 하는 것이 가능합니다. 이러한 방식은 CRFs의 parameter와 CNN을 동시에 학습하는 것이 가능합니다. 

Implementation with Neural Networks & Experiment Setting

본 논문에서는 Neural Net내에 multi-scale model을 사용하고, 목표는 section에 따른 Multi-scale feature와 attention variable에 대해서 mean-field update하는 것을 목표로 합니다. attention model의 mean field update를 하기 위해서, 위의 수식을 때라고, attention map을 update하는 과정은 아래와 같은 순서로 순차적으로 구현되는 것이 가능합니다.
1) 각각의 feature map 사이의 연관성에 대한 정보를 전달합니다. 전송된 message는 convolution operation을 진행합니다.
2) 이후, attention map을 거치고, 위의 수식 11을 거쳐 sigmoid function과 함께 normailzation을 한 값을 활용하여, attention map을 update합니다.

 

GPU 12M을 사용하였으며, Batchsize는 256을 활용합니다. 실험은 KiTTi, NYU depth 이미지를 활용합니다.

각각의 component를 분석했을 때 입니다.

Conclusion

본 논문에서는 moncular depth estimation에 대한 새로운 접근법을 제시합니아. 우리의 주된 기여는, CNN으로부터 얻은 정보와 attention model를 활용하는 방법을 제시한다는 점입니다. 해당 접근법은 상당한 개선이 있었었으며, 다른 CNN과 결합할 수 있다는 장점이 있습니다. 

 

 

Comments