环球今日报丨一文看懂AR技术原理

增强现实（Augmented Reality，简称AR）是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术，最早于1990年提出。包含了多媒体、三维建模、实时视频显示及控制、多传感器融合、实时跟踪及注册、场景融合等新技术与新手段，它将计算机生成的虚拟物体或关于真实物体的非几何信息叠加到真实世界的场景之上，实现了对真实世界的增强。

AR技术原理

AR从其技术手段和表现形式上，可以明确分为大约两类，一是Vision based AR，即基于计算机视觉的AR，二是LBS basedAR，即基于地理位置信息的AR。

Vision based AR

(资料图片仅供参考)

基于计算机视觉的AR是利用计算机视觉方法建立现实世界与屏幕之间的映射关系，使我们想要绘制的图形或是3D模型可以如同依附在现实物体上一般展现在屏幕上，如何做到这一点呢？

本质上来讲就是要找到现实场景中的一个依附平面，然后再将这个3维场景下的平面映射到我们2维屏幕上，然后再在这个平面上绘制你想要展现的图形，从技术实现手段上可以分为2类：

1、 Marker-Based AR

这种实现方法需要一个事先制作好的Marker(例如:绘制着一定规格形状的模板卡片或者二维码），然后把Marker放到现实中的一个位置上，相当于确定了一个现实场景中的平面。

然后通过摄像头对Marker进行识别和姿态评估（Pose Estimation），并确定其位置，然后将该Marker中心为原点的坐标系称为Marker Coordinates即模板坐标系。

我们要做的事情实际上是要得到一个变换从而使模板坐标系和屏幕坐标系建立映射关系，这样我们根据这个变换在屏幕上画出的图形就可以达到该图形依附在Marker上的效果。

理解其原理需要一点3D射影几何的知识，从模板坐标系变换到真实的屏幕坐标系需要先旋转平移到摄像机坐标系（Camera Coordinates）然后再从摄像机坐标系映射到屏幕坐标系。

在实际的编码中，所有这些变换都是一个矩阵，在线性代数中矩阵代表一个变换，对坐标进行矩阵左乘便是一个线性变换（对于平移这种非线性变换，可以采用齐次坐标来进行矩阵运算）。公式如下：

矩阵C的学名叫摄像机内参矩阵，矩阵Tm叫摄像机外参矩阵，其中内参矩阵是需要事先进行摄像机标定得到的，而外参矩阵是未知的，需要我们根据屏幕坐标(xc ,yc)和事先定义好的Marker 坐标系以及内参矩阵来估计Tm，然后绘制图形的时候根据Tm来绘制（初始估计的Tm不够精确，还需要使用非线性最小二乘进行迭代寻优）。

比如使用OpenGL绘制的时候就要在GL_MODELVIEW的模式下加载Tm矩阵来进行图形显示。

2、 Marker-Less AR

基本原理与Marker based AR相同，不过它可以用任何具有足够特征点的物体(例如：书的封面)作为平面基准，而不需要事先制作特殊的模板。摆脱了模板对AR应用的束缚。它的原理是通过一系列算法(如： SURF，ORB，FERN等)对模板物体提取特征点，并记录或者学习这些特征点。

当摄像头扫描周围场景，会提取周围场景的特征点并与记录的模板物体的特征点进行比对，如果扫描到的特征点和模板特征点匹配数量超过阈值，则认为扫描到该模板，然后根据对应的特征点坐标估计Tm矩阵，之后再根据Tm进行图形绘制(方法与Marker-Based AR类似)。

LBS-Based AR

其基本原理是通过GPS获取用户的地理位置，然后从某些数据源（比如wiki，google）等处获取该位置附近物体(如周围的餐馆，银行，学校等)的POI信息，再通过移动设备的电子指南针和加速度传感器获取用户手持设备的方向和倾斜角度，通过这些信息建立目标物体在现实场景中的平面基准(相当于marker)，之后坐标变换显示等的原理与Marker-Based AR类似。

这种AR技术利用设备的GPS功能及传感器来实现，摆脱了应用对Marker的依赖，用户体验方面要比Marker-Based AR更好。

而且由于不用实时识别Marker姿态和计算特征点，性能方面也好于Marker-Based AR和Marker-Less AR，因此对比Marker-Based AR和Marker-Less AR，LBS-Based AR可以更好的应用到移动设备上。

AR增强现实系统组成

1、Monitor-based系统

在基于计算机显示器的AR实现方案中，摄像机摄取的真实世界图像输入到计算机中，与计算机图形系统产生的虚拟景象合成，并输出到屏幕显示器。

用户从屏幕上看到最终的增强场景图片。它虽然不能带给用户多少沉浸感，但却是一套最简单使用的AR实现方案。由于这套方案的硬件要求很低，因此被实验室中的AR系统研究者们大量采用。

2、Video see-through系统

头盔式显示器（Head-mounted displays-HMD）被广泛应用于虚拟现实系统中，用以增强用户的视觉沉浸感。增强现实技术的研究者们也采用了类似的显示技术，这就是在AR中广泛应用的穿透式HMD。

根据具体实现原理又划分为两大类，分别是基于视频合成技术的穿透式HMD（video see-through HMD）和基于光学原理的穿透式HMD（optical see-through HMD）。

Video see-through增强现实系统实现方案

3、Optical see-through系统

在上述的两套系统实现方案中，输入计算机中的有两个通道的信息，一个是计算机产生的虚拟信息通道，一个是来自于摄像机的真实场景通道。而在optical see-through HMD实现方案中去除了后者，真实场景的图像经过一定的减光处理后，直接进入人眼，虚拟通道的信息经投影反射后再进入人眼，两者以光学的方法进行合成。

4、三种系统结构的性能比较

三种AR显示技术实现策略在性能上各有利弊。

在基于monitor-based和video see-through显示技术的AR实现中，都通过摄像机来获取真实场景的图像，在计算机中完成虚实图像的结合并输出。整个过程不可避免的存在一定的系统延迟，这是动态AR应用中虚实注册错误的一个主要产生原因。

但这时由于用户的视觉完全在计算机的控制之下，这种系统延迟可以通过计算机内部虚实两个通道的协调配合来进行补偿。

而基于optical see-through显示技术的AR实现中，真实场景的视频图像传送是实时的，不受计算机控制，因此不可能用控制视频显示速率的办法来补偿系统延迟。

另外，在基于monitor-based和video See-through显示技术的AR实现中，可以利用计算机分析输入的视频图像，从真实场景的图像信息中抽取跟踪信息（基准点或图像特征），从而辅助动态AR中虚实景象的注册过程。而基于optical see-through显示技术的AR实现中，可以用来辅助虚实注册的信息只有头盔上位置传感器。