13888382929

太阳城官网NeRF介绍2024-03-22 20:26:50

  太阳城官网NeRF介绍本文主要介绍NeRF在三维重建领域的进展与应用,神经辐射场 (Neural Radiance Field, NERF) 作为3D视觉里的一个新范式,惊艳的效果吸引了大量研究者的关注。其核心点在于非显式地将一个复杂的静态场景用一个神经网络来建模。在网络训练完成后,可以从任意角度渲染出清晰的场景图片。

  NeRF介绍:Neural Radiance Fields,神经辐射场,仅用2D的posed images作为监督,即可表示复杂的三维场景,用于新视角合成(给定源图像、源姿态 ,以及目标姿态,渲染生成目标姿态对应的的图片 )

  目标姿态:如下图所示,我们需要对图中的挖掘机进行新视角合成,首先我们会围绕挖掘机采集不同角度的图像、相机位姿,将采集的图像序列以及它们对应的位姿送入到NeRF,就可以合成一些新的视角,即从空间中任意位置来看这个挖掘机,看到的图像应该是什么样的,NeRF可以合成出来

  NeRF在输入中加入了位置编码γ(d) ,即给采样点加上位置编码,然后再送入MLP,其能够提升性能,更容易拟合高频域的函数,MLP网络结构如下:

  射线公式: r(t)=o + td ,其中,o表示原点坐标太阳城app下载,d为方向向量,t为参数。如下图所示太阳城app下载,射线 A 上的每个像素都可以看作是射线和图片 A 的交点,射线 B 同理。可以在射线 A 上采样得到很多点 (a _1  ,a_2  , ...) ,每个点都对应着 (x, y, z, θ, φ) 的坐标,用MLP 预测这些采样点的颜色和体密度 (R, G, B, σ)。

  体密度表示光线到达此处后终止的概率,使用经典的立体渲染的原理,我们可以渲染出任意射线穿过场景的颜色

  设我们需要求解的图片中的像素点P 的RGB 值为 C(r) , C(r) 可以看作是射线从近端的采样点 t_n  到远端的采样点 t_f  的积分(采样点即上图中的黑色点):

  实际训练中,需要对积分进行离散化处理,NeRF采用了stratified sampling方式(Monte Carlo法的采样方法):将射线需要积分的区域分为N份,然后在每一个小区域中进行均匀随机采样,采样方法为:

  根据相机位置逐像素发射光线 → 在光线方向上进行采样获取采样点 ,对采样点进行positional encoding → 把encode后的采样点输入MLP,计算对应的(r, g, b)和不透明度 → 利用volume rendering计算最终像素点的颜色→与原像素颜色做最小二乘损失

  训练和渲染都很慢,立体渲染需要沿着一条光线处理许多采样的点,每个采样点都需要送进神经网络前向传播一次得到对应的颜色和密度属性,因此渲染的速度比较慢,也是NeRF效率低的主要原因 只能表示静态场景 经过训练的NeRF表示不会泛化到其他场景,即仅限于训练的场景

  主要用于量化两幅图像间的结构相似性的指标,从亮度、对比度以及结构方面量化图像的属性,用均值估计亮度,方差估计对比度,协方差估计结构相似程度。SSIM值的范围为0至1,越大代表图像越相似。如果两张图片完全一样时,SSIM值为1

  只是衡量最大值信号和背景噪音之间的图像质量参考值。单位为dB,其值越大,图像失真越少太阳城app下载。一般来说,PSNR高于40dB说明图像质量几乎与原图一样好;在30-40dB之间通常表示图像质量的失真损失在可接受范围内;在20-30dB之间说明图像质量比较差;PSNR低于20dB说明图像失线  ( \frac{{MAX}_{I}^{2}}{MSE}   )

  也称为“感知损失”(perceptual loss),用于度量两张图像之间的差别,对于平滑的图像,上述2个评价指标评价时存在问题

  特斯拉搭建了一个庞大的自动标注流水线分的视频,包括大量传感器数据,交给神经网络离线学习,然后利用大量机器和人工智能算法生成可以用于训练网络的标注数据集。

  NeRF中的MLP这个模型,可以理解为物体本身,如果对应到Tesla 方案上,MLP就是道路本身(一个隐式表示):

  在场景重建的时候,我们需要获得每一个摄像头的位置信息,比如说我们需要知道每个摄像头的外参,这里TESLA可能是通过SLAM(camera IMU)来获得相机在帧与帧之间的变换矩阵

  NeRF“神经辐射场”,过程如下(上方右图所示):首先,给出既定的X, Y 坐标点数据,让神经网络预测地面的高度,由此生成无数的X, Y, Z 坐标点,以及各种语义,例如路边、车道线、路面等,形成大量的信息点(向量空间中的信息点);