NeRF的研究目的是合成同一场景不同视角下的图像

3D视觉工坊 2023-01-29 2126

描述

NeRF，即Neural Radiance Fields（神经辐射场）的缩写。研究员来自UCB、Google和UCSD。

Title：NeRF： Representing Scenes as Neural Radiance Fields for View Synthesis

Paper：https://arxiv.org/pdf/2003.08934.pdf

Code：https://github.com/bmild/nerf

写这篇文章的动机是，一方面NeRF实在太重要了代表着计算机视觉、图像学结合的未来重要方向；另一方面NeRF对于计算机视觉背景的同学有一定的理解门槛，这篇文章试图以最小背景知识补充、最少理解成本为前提介绍NeRF。

整体介绍

NeRF的研究目的是合成同一场景不同视角下的图像。方法很简单，根据给定一个场景的若干张图片，重构出这个场景的3D表示，然后推理的时候输入不同视角就可以合成（渲染）这个视角下的图像了。

「3D表示」有很多种形式，NeRF使用的是辐射场，然后用「体渲染」（Volume Rendering）技术，给定一个相机视角，把辐射场渲染成一张图像。选用辐射场+体渲染的原因很简单，全程可微分。这个过程很有意思，可以理解为把一个空间朝一个方向上拍扁，空间中的颜色加权求和得到平面上的颜色。

辐射场

体渲染

所谓体渲染，直观地说，我们知道相机的焦点，焦点和像素的连线可以连出来一条射线，我们可以对这条射线上所有的点的颜色做某种求和就可以得到这个像素的颜色值。

理论上，我们可以对这条射线经过空间上的每个点的密度（只和空间坐标相关）和颜色（同时依赖空间坐标和入射角）进行某种积分就可以得到每个像素的颜色。当每个像素的颜色都计算出来，那么这个视角下的图像就被渲染出来了。如下图所示：

从相机焦点出发，往一个像素连出一条射线，获取射穿过空间中每个点的属性，进行积分得到这个像素的颜色

为了顺利完成上面过程，我们可能需要维护硕大无朋Tensor来表示辐射场，查表获取RGB和密度。这里一个问题是空间有多大表就有多大，同时只能是离散表示的。NeRF要做的事情是用一个神经网络来建模辐射场，这样无论空间有多大，不影响我们表示辐射场的所需要的存储量，而且这个辐射场表示是连续的：�Θ：（�，�，�，�，�）→（�，�，�，�