3D感知的数据分析问题,从行业到实践的过程

  • 2019-01-02

    假设你要打造一台自动驾驶汽车,它需要了解周围情况。你会用什么方法让车子感知周围的行人、自行车和其他障碍物呢?也许你会想到用照相机,但是这可能不会很高效:你需要对3D环境进行拍摄,然后将其压缩成2D图像。之后,模型会重建你需要的3D图像信息(例如车辆距前方行人的距离)。将3D图像压缩的过程会丢掉很多重要信息,然而之后想再重新拼凑这些信息是很困难的,即使是最先进的算法也会出错。

    所以,理想情况下你应该可以用3D数据对2D景观进行优化,可以直接用传感器对前方障碍进行定位,而不是用2D图像估计行人或其他交通工具与你的距离。但是这时又会有新的问题:我们怎么才能在3D数据中识别目标物体呢?例如行人、自行车、汽车等等。传统的CNN会直接在2D图像中辨认不同的物体,然后再在3D中调整。3D感知问题已经研究了很久,这篇文章就是对这一工作进行大致回顾。

奥比中光3D感知芯片

    特别的,我们将重点关注最近能够实现3D物体的分类和语义分割的深度学习技术。我们会从捕捉、表示3D数据的常用方法讲起,之后会展示三种基本的用于表示3D数据的深度学习方法。最后,我们会思考未来研究的新方向。

    如何捕捉并表示3D数据?

    很明显,我们需要能直接在3D数据上操作的计算机视觉方法,但是这里有三大难题:感知、表示、理解3D数据。

    感知

    捕捉3D数据的过程很复杂,虽然2D相机价格便宜、使用广泛,但是要进行3D感知还需要特殊的硬件设备。

    立体视觉利用多相机在不同方位进行拍摄来计算深度信息

    在两个或两个以上的位置放置相机,捕捉不同场景下的目标图像,然后把对应的像素进行匹配,计算不同照片中每个像素的位置有何不同。这也是人类看世界的方法——我们的眼睛捕捉两个不同的画面,然后大脑根据左右眼不同角度确定3D场景。立体视觉只需要几个普通相机,设备很简单,因此吸引了很多使用者。但是,这种方法在进行精准测量或计算速度时表现得就不那么好了,因为用视觉细节对图像之间相对的点进行匹配,不仅需要大量计算力,还会造成很多错误。

    更多技术知识:3D结构光人脸识别技术如此闪耀-奥比中光


分享到: