KalelPark's LAB

[논문 리뷰] D-NeRF: Neural Radiance Fields for Dynamic Scenes 본문

Data Science/Neural Radiance Fields

[논문 리뷰] D-NeRF: Neural Radiance Fields for Dynamic Scenes

kalelpark 2023. 1. 23. 11:20

GitHub를 참고하시면, CODE 및 다양한 논문 리뷰가 있습니다! 하단 링크를 참고하시기 바랍니다.
(+ Star 및 Follow는 사랑입니다..!)

https://github.com/kalelpark/Awesome-ComputerVision

 

GitHub - kalelpark/Awesome-ComputerVision: Awesome-ComputerVision

Awesome-ComputerVision. Contribute to kalelpark/Awesome-ComputerVision development by creating an account on GitHub.

github.com

* 계속해서 업데이트 예정입니다..!

Abstract

Image의 Sparse set으로부터, geometric reasoing과 machine learning기술이 결합하여, Neural rendering 방법은 이미지에 관하여 새로운 장면을 보여주는 접근법으로 최근에 유망되고 있다. Neural Radiance fields는 5D coordinates를 deep network를 통해 학습시킨 후 volume density와 view-dependent로 mapping됩니다. 

Nerf는 다른 장면으로부터 same spatial location에 질문하여 정적 장면에 매핑하는 것이 가능합니다.

(Nerf는 5D coordinate으로부터 다양한 소스를 만들어내어 MLP에 Input으로 활용하여 Color, Density를 생성합니다.)
본 논문에서는, D-Nerf를 소개합니다. D-Nerf는 이미지를 재구성이 가능하고, 기준 내에서 객체를 새로운 이미지로 랜더링하는 것이 가능하며, 영상을 생성 시 객체 주위에 단일 이미지로부터 딱딱한 motion이 없습니다. 

이러한 목적을 달성하기 위해 우리는 시간을 추가적인 input을 고려하여, 2가지 stage로 학습과정을 설명합니다.

1) canonical space에 장면을 encoding하는 것이다.

2) canoical representation을 deformed scene에 특정한 시간에 mapping하는 것이다.

 

* Nerf 관련 논문에서는 Light field라는 단어가 자주 나옵니다.
   
   Light field란 일반 카메라로 인해 훼손된 빛에 대한 손실과 Depth를 복원하여, Depth와 refocucing, viewpoint등 다양한
   영상처리를 할 수 있는 기술입니다.

Introduction

sparse image로부터, photo-realistic view의 장면으로 rendering하는 것에는 상당히 많은 노력 및 장비가 필요합니다.
NeRF는 simple MLP를 활용하여, 5D input을 encoding하여 radaince value와 volume density로 mapping합니다.
이렇게 학습된 매핑은 특별한 사실성을 가진 자유 시점을 랜더링하는 것을 허용합니다.

 

모든 방식이 동적이 아닌 정적인 객체에 접근하는 방식임에도 불구하고, 본 논문에서는 동적인 장면에도 적용가능한 end-to-end neural rendering system을 최초로 제안합니다. 4D view synthesis에 관한 기존의 방법론과 3가지가 다릅니다.

  1) Single Camera만을 사용하여 Nerf를 하는 것이 가능합니다.

  2) 우리는 복잡한 계산없이 3D reconstruction이 가능합니다.

  3) end-to-end 방법으로 train하는 것이 가능합니다.

 

본 논문의 핵심 아이디어는, continuous 6D function을 input으로 사용하는 시스템을 사용합니다.
(이전의 Nerf 논문과 다르게 시간에 대한 t를 고려합니다.)

(x, y, z, t)로부터 density와 radiance로 mapping하는 것을 학습하는 Nerf는 만족스러운 결과를 가져오지 않는다.

3D scene flow에 영감을 받아서, Dynamic-Nerf라고 불립니다. 이것은 두 개의 module로 구성되어 학습합니다.
첫 번째 Module은 시간 내 장면의 위치와 일반적인 장면 사이로 Spatial mapping하는 방식을 학습합니다.
두 번째 Module은 tuple을 고려하여 volume density와 각각의 direction으로부터 나타난 장면을 표현합니다.

관절 운동에서 복잡한 신체자세를 수행하는 인간에 이르기까지 매우 다른 유형의 변형을 겪는 장면에서 D-NeRF를 철저히 평가합니다.
camera view와 time componets를 동시에 다루는 D-Nerf는 영상을 일반적인 장면으로 분할하여 학습하고,  high-quality image를 render하는 것이 가능하다. 또한 우리의 방법론은 다양한 시간대에서의 Object를 3D meshes로 완벽하게 생성하는 것이 가능합니다.

Related Work

Neural implicit representation for 3D geometry

2D domain에 대한 딥러닝의 성공은 3D domain에 대한 관심을 증가시켰습니다.
그럼에도 불구하고, 딥러닝에 가장 적합한 3D 데이터 표현은 nonrigid geometry에 대해 열린 결말로 남아 있다.

 

최근에 Neural Network를 통하여, 암시적으로 3D data를 표현하는 방법들이 대두되고 있습니다. 주된 아이디어는 Neural Network의 output을 3D point의 정보로 묘사하는 것이다. 하지만 이러한 방법들은 Nerf가 대두되기 전 상당히 제한적이었습니다.

Nerf는 5D radiance fields를 활용하여, rigid scene를 고해상도와 현실적인 장면처럼 표현하는 것이 가능합니다.

 

하지만, 언급되어진 모든 방법들은 rigid scne에서 좋은 결과를 얻는 것이 가능했지만, 그러나 dynamic하고 변형가능한 장면을 처리하는 방법은 없습니다. 본 논문에서는 3D ground-truth와 multi-view camera setting없이 D-NeRF가 시간에 따른 non-rigid와 time-varying scene에 대한 것들을 암묵적으로 표현가능하다는 것을 보여줍니다.

 

Novel view synthesis

D-NeRF는 이전의 연구와는 다르게 3D reconstruction이 필요하지 않고, end-to-end로 학습하는 것이 가능하며, 시간에 따른 single view가 요구됩니다. D-NeRF의 또 다른 매력적인 특징은 시간에 따라 변하는 3D volume density와 emitted raidance를 본질적으로 학습한다는 것이다.

Problem Formulation

monocular camera로부터 얻은 이미지들을 고려하면, 우리는 이미지를 암시적으로 인코딩하는 딥러닝 모델을 개발하는 것을 목표이며,
임의의 시간대의 장면들을 합성하여 새로운 것을 만드는 것을 목표로 합니다.

 

기존의 NeRF의 방법론에서는 x, d만을 고려하였지만, 새로운 장면들을 D-NeRF에서는 time t를 구성요소로서 고려합니다.

직관적인 해결책은 6D space로부터 4D space로 mapping하는 transformation M을 학습하는 것이다.
우리는 time t에 대해서 point x 와 viewing direction d를 고려하여, 우리는 point position을 canonical configuration으로 변형하였습니다. 시간 내에서 장면들은 더이상 독립적이지 않기에, common canonical space anchor를 통하여 연결되게 됩니다.

Method

우리는 dynamic scene의 희소한 이미지로부터 오로지 학습된 view synthesis에 관한 새로운 render방법인 D-NeRF를 도입하였습니다. NeRF는 rigid scene의 여러 장면들을 회상하는 것을 요구되지만, D-NeRF는 single view per time과 continuous non-rigid scenes trained에 대한 volumetric density representation을 학습하는 것이 가능합니다.

첫 번째 module에서는 MLP에서는 t에 관하여, 시간에 따른 x, y, z좌표의 움직임을 학습하고, 원래 위치와 이전에 학습한 것과 방향들을 x에 관하여 학습하여, 색상하고 밀도를 추정합니다. 두 번째 module은 Deformation Network나 다른 MLP로 구성되어 있습니다.

Model Architecture

Canonical Network

일반적인 configurations을 사용함으로써 우리는 모든 이미지 내에 대응하는 point에 대한 정보를 표현합니다. 그렇게 함으로써 구체적인 viewpoint로부터 놓친 정보들을 configuration을 통하여 재복원하는 것이 가능합니다.

 

Canonical network는 canonical configuration 내 scene의 색상과 밀도를 encoding하기 위한 방법으로 학습됩니다. 구체적으로 3D coordinates를 고려하여, 첫번째로 256-dimension feature vector로 인코딩됩니다. feature vector는 camera viewing direction d와 합쳐진 후, fully conected layer를 통하여 color과 volume을 나타내는 데이터를 추출합니다.

 

Deformation Network

deformation Network는 instant specific time과 scene사이에서 deformation filed를 추정하도록 최적화하는 것이 가능합니다.

일반적으로 3D point x를 고려하였을 때, 시간에 대한 변화율에 관하여 출력하는 것을 학습합니다.

Volume Rendering

우리는 6D neural radiance fields 내에 non-rigid deformations을 위한 계산 방법을 활용합니다.

* 자세한 내용은 논문을 참고하시기 바랍니다.

Experiments

Reference

https://arxiv.org/abs/2011.13961

 

D-NeRF: Neural Radiance Fields for Dynamic Scenes

Neural rendering techniques combining machine learning with geometric reasoning have arisen as one of the most promising approaches for synthesizing novel views of a scene from a sparse set of images. Among these, stands out the Neural radiance fields (NeR

arxiv.org

 

 

Comments