AR 介绍以及技术原理

一、 AR



哈哈,好玩吧,上面是我用一款有意思的 app 制作的,叫做「唐纳德涂鸦」Android:Donald Draws Executive Doodles;iOS:Trump Executive Order)。

1、AR 为何物

现实增强技术(Augmented Reality),也就是我们常说的AR,是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。换句话来说,现实世界通过影像呈现在屏幕中的时候,AR技术在现实世界和用户之间加入了一个可控制的编程层,从而增加出了一个全新的体验维度。通过AR 应用,用户可以同现实世界进行更多、更深入的交互,能够实时地执行操作,获取反馈,而不仅仅是查看信息。

AR 应用在移动端设备上已经开始蓬勃地发展了起来,相比于依赖专门设备的VR技术,AR更加触手可及,相关的应用在 iOSAndroid 平台上已经不少了。下面是一些用户至少听过的 AR 应用:

  • PokemonGo:玩家通过在现实世界中走动以抓取虚拟宠物角色

  • SnapChat Lenses:基于 SnapChat 的面部识别应用,用户能够同计算生成的元素进行互动。

  • Google 翻译的 APP,通过内置的相机获取图像,替换文本,帮助用户更加直观地获取到路牌上的信息,这也非常完美地呈现了 AR 技术的真实价值。

  • IKEA Place: 买家具用的,很方便。

  • The Machines:
    The Machines 在苹果 iPhone 8/X 的发布会上作为特色游戏向全球展示!它利用 AR 技术,将桌子瞬间变成激烈的战场,和别的玩家进行对抗!The Machines 将战场投射到现实世界中,真实呈现的战斗犹如就发生在你面前,你要绕过山丘,钻过山洞才能够真正查揣到敌人的动向。点我去看 The Machines 的宣传视频>>

  • 2018版人体解剖学图谱:
    它是针对医疗保健专业人士、学生和教师的三维化动画参考应用。 应用包括全面的男性和女性三维大体解剖模型,精选的组织和器官显微解剖结构、尸体切片和配以三维横截面的诊断图片,还有交互式的肌肉和骨骼动画。


  • Stack AR:
    Stack AR 是一款增强现实版的层层叠积木砖块游戏,可以让你用虚拟的积木砖块来盖楼,简单但是有趣!

2、AR技术原理

AR 从其技术手段和表现形式上,可以明确分为大约两类:

  • 1、Vision based AR,即基于计算机视觉的 AR
  • 2、LBS based AR,即基于地理位置信息的 AR,我们分门别类对其进行概念讲解和原理解析。

1、Vision based AR

基于计算机视觉的 AR 是利用计算机视觉方法建立现实世界与屏幕之间的映射关系,使我们想要绘制的图形或是 3D 模型可以如同依附在现实物体上一般展现在屏幕上,如何做到这一点呢?
本质上来讲就是要 找到现实场景中的一个依附平面,然后再将这个 3 维场景下的平面映射到我们 2 维屏幕上,然后再在这个平面上绘制你想要展现的图形,从技术实现手段上可以分为 2 类:

1) Marker-Based AR

这种实现方法需要一个事先制作好的 Marker (例如:绘制着一定规格形状的模板卡片或者二维码),然后把 Marker 放到现实中的一个位置上,相当于确定了一个现实场景中的平面,然后通过摄像头对 Marker 进行识别和姿态评估(Pose Estimation),并确定其位置,然后将该 Marker 中心为原点的坐标系称为 Marker Coordinates 即模板坐标系,我们要做的事情实际上是要得到一个变换从而使模板坐标系和屏幕坐标系建立映射关系,这样我们根据这个变换在屏幕上画出的图形就可以达到该图形依附在Marker上的效果,理解其原理需要一点3D 射影几何的知识,从模板坐标系变换到真实的屏幕坐标系需要先旋转平移到摄像机坐标系(Camera Coordinates)然后再从摄像机坐标系映射到屏幕坐标系(其实由于硬件误差这中间还需要理想屏幕坐标系到实际屏幕坐标系的转换,这里不深究),见下图。


在实际的编码中,所有这些变换都是一个矩阵,在线性代数中矩阵代表一个变换,对坐标进行矩阵左乘便是一个线性变换(对于平移这种非线性变换,可以采用齐次坐标来进行矩阵运算)。公式如下:

矩阵C的学名叫摄像机 内参矩阵,矩阵 Tm 叫摄像机 外参矩阵,其中内参矩阵是需要事先进行摄像机标定得到的,而外参矩阵是未知的,需要我们根据屏幕坐标 (xc ,yc) 和事先定义好的 Marker 坐标系以及内参矩阵来估计 Tm,然后绘制图形的时候根据 Tm 来绘制。

2)Marker-Less AR

基本原理与Marker based AR 相同,不过它可以用任何具有足够特征点的物体(例如:书的封面)作为平面基准,而不需要事先制作特殊的模板,摆脱了模板对AR应用的束缚。它的原理是通过一系列算法(如:SURF,ORB,FERN 等)对模板物体提取特征点,并记录或者学习这些特征点。当摄像头扫描周围场景,会提取周围场景的特征点并与记录的模板物体的特征点进行比对,如果扫描到的特征点和模板特征点匹配数量超过阈值,则认为扫描到该模板,然后根据对应的特征点坐标估计 Tm 矩阵,之后再根据Tm进行图形绘制(方法与 Marker-Based AR 类似)。

2、 LBS-Based AR

LBS+AR 就是融合了基于地理位置和增强现实,此前其应用主要都在各类游戏之中,其中例如去年火遍全球的《Pokemon Go》,正是这一应用的最佳代表。游戏在定位玩家的地理位置后,系统设定分布在该地域的妖怪品种以及出现几率,玩家跟着导航就能找到各种口袋妖怪,并且游戏中还运用AR技术,让玩家捕获妖怪的扔球动作原汁原味再现于现实。

其基本原理是通过 GPS 获取用户的地理位置,然后从某些数据源(比如 wiki,google)等处获取该位置附近物体(如周围的餐馆,银行,学校等)的 POI 信息,再通过移动设备的电子指南针和加速度传感器获取用户手持设备的方向和倾斜角度,通过这些信息建立目标物体在现实场景中的平面基准(相当于marker),之后坐标变换显示等的原理与 Marker-Based AR 类似。
这种 AR 技术利用设备的 GPS 功能及传感器来实现,摆脱了应用对 Marker 的依赖,用户体验方面要比 Marker-Based AR 更好,而且由于不用实时识别 Marker 姿态和计算特征点,性能方面也好于 Marker-Based AR和Marker-Less AR,因此对比 Marker-Based ARMarker-Less AR,LBS-Based AR 可以更好的应用到移动设备上。
LBS-Based AR 导航类应用,由于需要显示的信息较多,会出现以下两个问题。
物体相互覆盖无法显示的问题
采用实时聚类技术,将互相覆盖较严重的标签进行实时合并,当用户点击聚合标签时,聚合标签聚合的所有标签都以列表的形式显示出来,再供用户二次选择。
点选几个物体相互覆盖部分时的物体选择问题。
采用射线相交技术,当用户点击屏幕时,通过坐标变化,把 2D 的屏幕 坐标转换为 3D 的射线,并判断该射线是否与 3D 场景中的标签相交,如果相交,则把所有相交的标签以列表的形式显示出来,再供用户二次选择。

硬件技术难点:

交互技术
手势操控:微软HoloLens是利用手势进行交互的、最有特点的AR硬件。戴上HoloLens眼镜后,可通过手指在空中点选、拖动、拉伸来控制虚拟物体、功能菜单界面。比如利用Air tap 手势打开全息图,利用Bloom 手势打开开始菜单。

语音操控:
手势操控固然解放了双手,但是它有着致命的缺陷,那就是频繁的抬手会造成手臂酸软。而语音操控便是更好的人机交互方案。现在微软Cortana、Google Now、苹果Siri、亚马逊Echo都是优秀的语音识别助手,但是他们的识别率还是不高,只能作为辅助操作工具,智能程度也远远达不到AR交互需求。

体感操控:
假设有一天全息通话成为了现实,那么除了语音、视觉交流之外,你是否可以和远程的朋友进行体感交流(比如握手)?想要获得更加完美的增强现实体验,体感外设显然是非常重要的一环。现在,已经有不少厂商推出了体感手套、体感枪等外设。只是这些设备功能还很单薄,还有着极大的改进空间。

镜片成像技术

无论是增强现实还是虚拟现实,FOV 都是影响使用体验的最重要因素之一。现在的AR眼镜的可视广角普遍不高,HoloLens有30°,Meta One只有23°,而公众最为熟悉的Google Glass视角仅有12°。这是由于镜片成像技术和光学模组不成熟造成的,现在还没有太好的解决方案,但太窄的视角显然让增强现实效果大打折扣。

而除了FOV,AR在成像方面,还存在着以下的问题需要解决:
首先软件方面,底层算法(输入、输出算法)还需要加强。这需要精确的图像识别技术来判断物体所处的位置以及3D坐标等信息。不同于其他3D定位,增强现实领域的物体位置,必须结合观测者的相对位置、三维立体坐标等信息进行定位,难度要高很多。而如何利用叠加呈像算法,将相关信息叠加显示在视网膜上也是个技术难点。
而在硬件方面,光学镜片还是存在着色散和图形畸变的问题。智能眼镜成像时,视场周边会出现红绿蓝色变,这就是棱镜反射光线时常见的色散现象,可以通过软件进行色彩补偿或者通过多材料镜片来消除。前者会增加硬件负担并降低图像帧率。后者的成品率低,这也是造成AR眼睛昂贵的原因之一。

SLAM技术

SLAM 即指同步定位与建图技术。有人说,两年前,扫地机是就是它的代言人。确实,能够扫描室内布局结构,并构建、规划扫地路线的扫地机器人是SLAM技术最好代表了。其实,这项技术也可以被运用在AR领域,现阶段基于SLAM技术开发的代表性产品有微软Hololens,谷歌Project Tango以及Magic Leap。
举个例子,我们知道AR可以用来观看视频,但是如果我想把画面准确的投射到墙上或者壁橱上呢?这就需要SLAM技术。以HoloLens为例,它在启动的时候,会对用户所处空间进行扫描,从而建立房间内物体摆设的立体模型。

Microsoft HoloLens

Microsoft HoloLens 是微软首个不受线缆限制的全息计算机设备,能让用户与数字内容交互,并与周围真实环境中的全息影像互动。

微软MR头显HoloLens外观:


让我们先来看一下Microsoft HoloLens的官方宣传视频
HoloLens投射新闻信息流:
HoloLens模拟游戏:
8601a18b87d6277f84dafee62b381f30e824fc20.jpg
HoloLens收看视频和查看天气:
HoloLens辅助3D建模:

  • ARKit
    ARKit是苹果在2017年WWDC推出的AR开发平台。开发人员可以使用这套工具iPhone和iPad创建增强现实应用程序。
    2018年6月5日,苹果全球开发者大会WWDC 2018 在加州圣何塞召开,会上,苹果宣布推出旗下AR工具的新版本:ARkit 2.0。
  • ARCore
    2017年8月,Google 宣布推出了和 ARKit 对标的增强现实 SDK,名为“ARCore”。ARCore是谷歌推出的搭建增强现实应用程序的软件平台,类似苹果的ARKit,它可以利用云软件和设备硬件的进步,将数字对象放到现实世界中。
    现在有很多第三方的平台SDK可供开发者简单集成使用,比如EasyARQQ-AR

二、 AR、VR、MR与全息头像、裸眼 3D 的区别

下面再给大家简单的区分一些简单名词概念,VR、AR、MR与全息投影、裸眼3D

1、 VR

VR又叫虚拟现实(Virtual Reality,简称VR)。其最大的特点是利用电脑模拟产生一个三维空间的虚拟世界,提供使用者关于视觉、听觉、触觉等感官的模拟,让使用者如同身临其境一般, 可以及时、没有限制地观察三度空间内的事物,在这个虚拟空间内,使用者形成交互的是虚拟世界的东西。
比如贝壳看房:


但是贝壳的VR体验并不好,延迟较高且画质较差,原因可能是他们将“15个G的数据压缩到15M左右”。同时手机壳子带来的画面畸变,让VR看房变成了一种煎熬。雪上加霜地是,其VR功能并没有得到足够的优化,在使用的时候,眼前的画面甚至会因为手机自动锁屏而黑屏。

2、MR

MR又叫混合现实(Mix reality,简称MR),既包括增强现实和增强虚拟,指的是合并现实和虚拟世界而产生的新的可视化环境。在新的可视化环境里物理和数字对象共存,并实时互动。 混合现实(MR)的实现需要在一个能与现实世界各事物相互交互的环境中。如果一切事物都是虚拟的那就是VR的领域了。如果展现出来的虚拟信息只能简单叠加在现实事物上,那就是AR。MR的关键点就是与现实世界进行交互和信息的及时获取。
MR中比较有名的有Magic Leap。从2014年起,Magic Leap就放出了不少展示其AR效果的视频,有在体育馆中溅起水花的大鲨鱼、有手心里的大象、有躲在办公室桌子腿后面的机器人。这些早期的视频给人的印象是Magic Leap的AR效果简直棒呆了,显示效果十分逼真,还能够被真实物体遮挡,完全与真实世界相融合。



这里还有一段Magic Leap demo视频,我们看到的视频视角也就是佩戴Magic Leap的人的视角。
从Dodge展示出的交互设计来看,Magic LeapARKit没有太大差别,创新之处在于Magic Leap可以同时支持多个平面识别,创建房间级体验,但是要扫描多个地点也会用用户感到操作困难吧。

  • VR是AR的子集,AR是MR的子集。
项目 VR虚拟现实 AR增强现实 MR混合现实
定义 全是虚的 半真半假 真假难辨
代表产品 Oculus Rift、HTC Vive、PlayStation VR、三星Gear VR Google Glass Hololens、Magic Leap
代表游戏 《极乐王国》 《精灵宝可梦Go》 《超次元MR》
适用场景 商场娱乐、游戏、影片 游戏、移动APP 商业领域

交互区别

VR设备:由于VR是纯虚拟场景,所以VR设备更多的是用于用户与虚拟场景的互动交互,更多的使用是:位置跟踪器、头部追踪、动作追踪、眼部追踪、数据手套、数据头盔等等。比如Oculus的Rift、HTC的Vive、三星的Gear VR、暴风影音的暴风魔镜等,当然,还有一些VR视频直播设备,如NextVR的红龙摄像机系统、Jaunt家的Jaunt ONE。
AR设备:由于AR是现实场景和虚拟场景的结合,所以基本都需要摄像头,在摄像头拍摄的画面基础上,结合虚拟画面进行展示和互动。比如Google的GoogleGlass、微软的Hololens等。

现有设备区别

正如上述交互区别所讲,VR设备(普通用户消费级设备)注重沉浸感,因此VR设备都具有封闭性,这是为了防止用户被现实环境影响而降低对虚拟系统的沉浸体验,所以VR设备通常设计成封闭的头戴式形式,与脸部接触部分均有橡胶或海绵,为了增强舒适感的同时也是为了防止漏光从而形成封闭空间。同时,根据现阶段的3D呈像原理VR设备通常都是凸透镜。这些综合在一起导致VR设备看起来比较笨重。
因此,现阶段的消费级VR设备普遍具有封闭性、凸透镜、笨重的标识。



当然也有简易的VR设备。

相比,AR设备从外形上就要轻便的多,且通常以眼镜的形式呈现(如Google Glass),并配有摄像头来捕捉现实场景。AR设备的镜片通常是透明棱镜,图像就通过镜框中的微型投影仪投射在棱镜上,再通过棱镜反射近人眼,人眼透过棱镜,就观看到了叠加在现实场景之上的显示内容。
因此,现阶段的消费级AR设备通常具有的轻便、透明棱镜、摄像头的标识。

3、全息投影

全息投影技术也称虚拟成像技术,是利用干涉和衍射原理记录并再现物体真实的三维图像的技术,不仅可以产生立体的空中幻像,还可以使幻像与表演者产生互动,一起完成表演,产生令人震撼的演出效果。 全息立体投影设备不是利用数码技术实现的,而是投影设备将不同角度影像投影至一种国外进口的全息膜上,让你看不到不属于你自身角度的其他图像,因而实现了真正的全息立体影像。关于全息投影最形象的理解就是《钢铁侠》中的“贾维斯”。利用全息投影我们可以实现不用戴眼镜或头盔就能看到真实的三维物体和空间,全息的本意是在真实世界中呈现一个3D虚拟空间。

4、裸眼3D

裸眼3D最简单的理解就是裸眼看3D电影达到的效果,就如同我们现在使用3D眼镜看3D电影产生的效果。裸眼3d和全息投影最大的区别是成像原理不同,因此展示出的效果也不同。裸眼3D是利用光栅原理进行投影成像的,而全息投影是利用干涉和衍射原理。裸眼3D在如今的技术条件下对观看角度和距离都有一定的要求,而全息投影却没有这方面的限制。

裸眼3D、全息投影与VR、AR、MR三者的区别主要体现在观看方式上,前两者不需要借助辅助设备就能直接观看,而VR、AR、MR所展示出的效果则需要借助辅助设备才能实现顺利观看。

应用领域

  • 医疗领域:

VR/AR 技术在医疗上的有几个运用案例:
(1)作为工具在诊疗过程和日常工作上帮助医生解决问题,如利用VR/AR技术轻易地进行手术部位的精确定位;
(2)用于物理治疗及恐惧症的治疗(如恐高症等);
(3)通过虚拟网络使患者更易就诊。根据高盛AR/VR报告预测,VR/AR直播领域2020年年销售额为12亿美元,2025年达到51亿美元。

  • 教育领域:

VR/AR 技术有潜力成为教育领域的标准工具,能够变革学生在基础教育和高等教育(大学及以上)阶段的受教方式。教师可以利用虚拟现实或增强现实技术让学生们在3D环境中与物体进行互动。例如:学生可以通过与虚拟世界的互动,了解太阳系、历史事件以及人体内部构造等。Google为学校免费提供Cardboard来推进这一市场。目前,其已开展了逾百次“模拟实地考察”。根据高盛AR/VR报告预测,VR/AR直播领域2020年年销售额为3亿美元,2025年达到7亿美元。

  • 军事领域:

部队可以利用增强现实技术,进行方位的识别,获得实时所在地点的地理数据等重要军事数据。

  • 古迹复原和数字化文化遗产保护:

文化古迹的信息以增强现实的方式提供给参观者,用户不仅可以通过HMD看到古迹的文字解说,还能看到遗址上残缺部分的虚拟重构。

  • 工业维修领域:

通过头盔式显示器将多种辅助信息显示给用户,包括虚拟仪表的面板、被维修设备的内部结构、被维修设备零件图等。

  • 网络视频通讯领域:

该系统使用增强现实和人脸跟踪技术,在通话的同时在通话者的面部实时叠加一些如帽子、眼镜等虚拟物体,在很大程度上提高了视频对话的趣味性。

  • 直播领域:

AR:通过增强现实技术可以在转播体育比赛的时候实时的将辅助信息叠加到画面中,使得观众可以得到更多的信息。
VR:在直播领域主要是VR技术的应用,在体育直播、音乐节直播、世界性会议直播等方面都有涉及。2015年,NextVR直播了NBA新赛季揭幕战和美国民主党总统竞选辩论大赛。国内方面,2016年4月30日至5月2日强氧科技将采用VR直播的方式直播草莓音乐节。不过现阶段,VR直播设备的高昂成本将是进入这个领域的壁垒。
根据高盛AR/VR报告预测,VR/AR直播领域2020年年销售额为7.5亿美元,2025年达到41亿美元。

101.jpg

  • 娱乐、游戏领域:

增强现实游戏可以让位于全球不同地点的玩家,共同进入一个真实的自然场景,以虚拟替身的形式,进行网络对战。




  • 旅游、展览领域:

人们在浏览、参观的同时,通过增强现实技术将接收到途经建筑的相关资料,观看展品的相关数据资料。

  • 市政建设规划:

采用增强现实技术将规划效果叠加真实场景中以直接获得规划的效果。

转载请备注原文出处,不得用于商业传播——凡几多

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容