VR 的未来五年 - Michael Abrash 在 Oculus Connect 3 上的回顾与展望


[按] 本文刊发于《程序员》2016年12月,转载请与该刊物联系。


年度 VR 盛会 Oculus Connect 3 上,Michael Abrash 和 John Carmack 和往年一样带来了精彩的演讲。和以往一样,Abrash 的发言 以前瞻性的研究和底层技术发展趋势为主,而 Carmack 的发言 一如既往地更关注在当下的平台上 (主要是移动 VR),通过工程化努力可以把交互和应用做到什么程度。

本篇主要包含了与 Michael Abrash 的演讲相关的内容。

回顾

开始之前,我们先简单回顾一下 Abrash 在近三年前 (2014年1月) 的 Steam Dev Days 2014 上曾作出的判断和预测——在名为 "What VR Could, Should, and Almost Certainly Will Be within Two Years" 的演讲中,Abrash 的开场白就说到 “Compelling consumer-priced VR hardware is coming, probably within two years” ("消费级 VR 硬件将会在两年内出现")。而正是两年后的 2016 年,三大厂商都把自己的产品送到了消费者手中。

下面这些是当时的部分辑录,而括号内是实际发生的情况。

  • "We strongly believe that it’s feasible to use the same technology to ship a consumer version within two years." (成品 Oculus Rift 和 HTC Vive 均于 2016 年发售)
  • "You see, for latency and bandwidth reasons, presence can only happen with a head-mounted display connected to a device capable of heavy-duty 3D rendering, so there’s no way that TV, movies, streaming, or anything that lacks lots of local compute power is up to the task. A corollary is that the PC – Linux, Windows, and OSX – is going to be the best place for VR, because that’s where the most FLOPs are." (成品 Oculus Rift 和 HTC Vive 都依托于 PC 平台)
  • "Presence starts to work somewhere around an 80 degree field of view, and improves significantly at least out to 110 degrees." (成品 Oculus Rift 和 HTC Vive 的 fov 都是 110°)
  • "We’ve found that 1080p seems to be enough for presence. We expect that 1440p, or better yet 2160p would be huge steps up." (成品 Oculus Rift 和 HTC Vive 的分辨率都是 2160 x 1200)
  • "we built the fastest low-persistence headmounted display we could; it runs at 95 Hz, and that successfully eliminates visible flicker." (成品 Oculus Rift 和 HTC Vive 的刷新率都是 90Hz)

基本上可以说在 2014 年时,Abrash 就把两年后的第一代 VR 设备的大部分硬件参数给挨个“钦点”了,其判断和预见力可见一斑。

愿景

快速扫过两年前的演讲后,我们把目光收回到 Abrash 在 Oculus Connect 3 上的发言。

在开场白中 Abrash 说到,随着几大消费级产品的发布,今年是 VR 行业的重要一年,这一年里行业内发生的诸多重量级事件,从五年前来看简直无法想象。Abrash 搬出了自己曾在 20 年前的 GDC 上引用过的话,“Pretty soon, computers will be fast” 来说明,我们对于趋势的发展是存在认知偏差的,我们会被当时的条件局限,但技术的发展从不会停下脚步,只会加速向前。现在对我们来说稳定在 90 帧是一个难以达到的目标,但以几年后的眼光来看实属平常。

事实上,理解这个认知偏差对我们很有用,它给了我们工作的意义。读过 Doom 启示录Michael Abrash's Graphics Programming Black Book 的同学,应该对 Abrash 接下来讲的这段故事比较熟悉了。

Abrash 说自己毕业的时候压根没想过什么工作的意义。那时候虽然在一个偶然的机会里知道了个人计算机,也觉得比自己所在的行业有趣得多,可当时考虑的更多的是怎么找到一份有趣而又体面的工作,对趋势和发展并没太在意。当他逐渐明白过来时,已过去了太多时间,直到 15 年后跟 John Carmack 相遇。

1993 年时,Michael Abrash 是第一代 Windows NT 的图形组经理,当时他被朋友手上泄漏出来的 DOOM 给震撼了,就直接给 John 发了封邮件。他们约着在西雅图一起吃饭时,Abrash 拒绝了卡神一起工作的邀约——他觉得在微软搞搞图形蛮有意思的,而且还有不少股权。

然而这不是一个十动然拒的故事,Abrash 无意间读了《雪崩》这个科幻小说之后,突然间觉得那书里提到的大部分 VR 场景实际上是可能实现的 (运用当时的图形技术) 这里 Abrash 用了非常细致的措辞 —— “It could actually work, maybe not right then, or quite the way that Neal Stephenson described it but close enough at some point in the foreseeable future”

abrash-02

一年后,John 又找他吃饭聊天时,出乎他意料的是,John 坐下来后开始畅谈自己对未来的愿景,丝毫没提拉他入伙的事情。John 提到怎么让玩家自己去一步步搭建固定的服务器,定制,扩展,互连,以及随之产生出某种意义上的“网络空间” (cyberspace),这是在 1994 年。John 连着说了两个钟头,他描绘的愿景跟雪崩里描绘的 VR 场景在 Abrash 的脑海里不断共振,在那一刹那,未来清晰地在他的眼前浮现出来。头一次,他觉得自己找到了一件比写牛X代码更有意义的事儿。接着他答应了 John 的邀请。

"It was by far the worst financial decision of my life." (“这是我这辈子做过的最糟糕的财务决定。”)Abrash 微笑着说完这句话以后,全场哄堂大笑,“微软的股票在那之后两年里翻了三倍,然后又翻倍,再次翻倍……”

abrash-04

注意,事实证明,John 说到的愿景并不是一厢情愿的猜测,他一步一步地使之成为现实。下面的这幅图是 id Tech 在 Wikipedia 页面 上的配图,图中是 Quake 的各种衍生,某种意义上可以说 Doom/Quake 从根基上影响了其后的大多数现代 3D 引擎,包括目前应用最为广泛的商业引擎 Unreal。

Quake_-_family_tree_2.svg

接着 Abrash 直接把时间线拖到了去年的 Connect 2 (见下图,具体内容见此前做过的记录:Oculus Connect 2 首席科学家 Michael Abrash 发言实录 )。他动情地说到,是一致的愿景让我们愿意把时间和精力投入到 VR 上来,明白自己正在一步步推动这个愿景的实现让这些努力都更具意义。

abrash-05

预测

三年前的预言大部分成为了现实,这次 Abrash 试着预测他眼中关于 VR 底层平台基础设施的今后五年的发展趋势和演化方向。这些预测都是针对高端 PC 平台的,毕竟相比移动 VR,高性能的 PC 在电力和运算能力上有着巨大的优势。

abrash-06

主要包括七个方面:

  1. 光学和显示 (Optics and displays)
  2. 图形 (Graphics)
  3. 眼部追踪 (Eye tracking)
  4. 音效 (Audio)
  5. 交互 (Interaction)
  6. 人体工学 (Ergonomics)
  7. 计算机视觉 (Computer Vision)

光学和显示 (Optics and displays)

关于光学显示这部分,Abrash 对比了当下的设备参数和人眼的区别。可以看到,与人眼相比,目前的技术在各个指标上均相去甚远。

abrash-07

紧接着给出了他的五年预测。可以看到,除了像素密度和 FOV 的增大以外,可变焦深 (Variable depth of focus) 的实现值得注意。

abrash-08

随着工艺的提高,可以肯定的是整体的像素数量会稳步增长。那么在给定的分辨率下,是更大的可视范围 (FOV) 重要,还是更细密的像素密度重要呢?这个问题取决于可视范围的增长是否能带来更好的体验,而 Abrash 在这里的答复是肯定的,他认为五年内可视角度将从 90 度增长到 140 度,而像素密度也将从目前的 30 像素/度翻倍至 120 像素/度。由于目前的光学技术在 FOV 超过 100 度时会失真,需要引入新的技术来实现 140 度的目标。

关于最后一项可变焦深,目前设备的固定焦深是在人眼前两米左右,如果可变的话能显著地提高真实度。“Anything that makes virtual viewing more like the real world will increase comfort and the ability to stay in VR for long periods.” (任何能让虚拟现实变得更真实的技术都能显著地改善舒适度并延长人们停留在 VR 里的时间) 这里 Abrash 提到了全息显示/光场显示/多焦点显示/可变焦显示等技术方案,但目前对头戴式设备来说,这些技术暂时都还不够成熟,需要进一步的研究。Abrash 认为以五年的区间来看,这个问题是有望解决的。

图形 (Graphics)

4K*4K 的分辨率意味着需要以 90 帧的速度为每只眼睛渲染 16M 的像素。然而这些像素里的大部分实际上是浪费的。视网膜的中央凹 (fovea) 的直径占据整个视网膜直径的十分之一不到,但却是人眼最高的分辨率的区域,在这个区域之外分辨率急剧降低(见下图)。也就是说,人眼焦点之外的次要区域,绝大部分是低分辨率的较模糊影像。

abrash-09

解决之道在于 foveated rendering (中文似可称为“凹式渲染”)。 就是如下图那样,仅以较高的分辨率渲染视线焦点区域。其他地方可适当降低分辨率,这样也通过减少像素数量来顺便降低了GPU负担。

abrash-10

注意,这跟 nVidia 集成到 Unreal 4.1x 里的 Multi-Res Shading 是不同的。MRS 利用的是光学矫正后分辨率不均匀的原理,在四周拉伸的区域使用较低分辨率,中央区域保持原分辨率。

mrs01

MRS 的优势是,在 nVidia 的 Maxwell 级以上的 GPU 是硬件支持一次性渲染多个缩放的视口的 (multiple scaled viewports in a single pass),而缺点是静态分辨率,无法随着视线转移做动态的改变。

mrs02

另一方面,凹式渲染本身也存在着一些需要解决的问题:其中,一部分工作来自于对传统渲染流程的改造,甚至可能需要完全的重新设计;另一部分则来自于对完美眼部追踪的需求,这很好理解,只有完全精确地知道视线的位置,才能动态地处理对应的区域。关于眼部追踪的讨论见下一节。

眼部追踪 (Eye tracking)

在两年前的第一届 Oculus Connect 上,Abrash 已经强调了眼部追踪在将来的 VR 中的重要角色,但目前这项技术的发展比当时的预计更加困难。可能你会觉得,在一个如此有限的范围内追踪单个突出的目标能有多难呢,一开始 Oculus Research 也低估了这项任务的难度,觉得只是工作量的问题。后来发现对于凹式渲染这类对实时性和精确性要求极高的需求来说,目前的眼部追踪还差得很远。因为一旦任何一帧没有及时响应或存在计算偏差的话,都会造成很糟糕的渲染结果和用户体验。

abrash-11

可靠的眼部跟踪需要考虑很多因素,其中最主要的是完整的眼部运动范围和所有的人种差异性。人的瞳孔变化幅度会很大,尺寸和形状都会随时改变,而且经常会两边不一致,同时也需要考虑眼睑,眼球突出幅度,激光矫正手术的影响和干扰,眼球本身在运动时的形变,以及在设备的狭小空间内追踪完整眼部运动的约束。

眼下有不少潜在的突破,都依赖于高度精确的眼部追踪实现。用 Abrash 的话来说,“Eye tracking is so central to the future of VR”。虽然他认为这是五年内可以解决的问题,但他同时也承认这是他所有预测中最大的单一风险 ("Greatest single risk factor for my predictions")。

音效 (Audio)

对音效的发展 Abrash 显得比较乐观,五年之内应可做到简单快速地生成个人化的 head-related transfer function (HRTF) 对于声音的反弹,叠加,干涉,以及对声源方向和距离的判断的描述,详见去年演讲的对应内容。好的音效模拟可以在参与者没有意识到的情况下改善虚拟空间内的整体体验。与去年强调的观点类似,由于运算量的限制,将只能处理有限的声源和接收者的声音传播。

abrash-12

交互 (Interaction)

Abrash 认为 Touch 将会扮演 VR 时代鼠标的角色,在很长时间内都会如此。而双手的追踪,重建和渲染对虚拟环境下的社交也很重要,虚拟人物如果有了精确的手部运动,就会大大增强表现力和感染力。空出的双手也可以用手势来操作简单的界面 (就像通常的科幻电影里那样),比如看电影的时候控制进度,或者在虚拟键盘上打字,等等。这些在五年内也有望被基本实现。

abrash-13

人体工学 (Ergonomics)

如果能不用头戴任何设备地在全息甲板上走来走去当然是最好的,不过看起来这在五年之内不太会发生。但设备本身将会变得更加小巧和轻便,而其中最大的挑战在于无线化。这样玩家可以在持续访问高性能 PC 的同时,自在地在房间中走动。这里的主要问题是显示带宽的限制。对于 4K*4K 的分辨率,通过凹式渲染来降低对带宽的需求看起来是一条可行的方案。

计算机视觉 (Computer Vision)

除此之外,真实环境的融入也将会非常有价值。有在 VR 中重建的 (部分) 真实世界作为参考时,参与者的行动能够更安全,也能更好地感知和处理真实世界里发生的事件,如有人走进房间,端起水杯喝水,等等。Abrash 称这一类情境为混合现实 (mixed reality),或增强 VR (augumented VR)。五年之内,随着工程问题的逐步解决,VR 与现实之间的界限将会逐步模糊。

abrash-14

注意 Augmented VR 和 AR 的不同在于,前者在虚拟空间内重建了真实场景的完整模型,并可以通过简单交互来修改重建出的模型的尺寸,材质,方位等等。

abrash-15

然而,人类本身的重建是其中最复杂的部分,虽然现在在各种传感器和摄像机的帮助下,已经有了很好的手部追踪,但面部的细微表情捕捉和重现仍是一个待解决的问题。五年之内,可以期待具有基本社交属性和娱乐属性的虚拟角色 (virtual avatar),但较真人而言,虚拟角色的拟真程度一时还无法相提并论。

虚拟工作间

Abrash 在最后进一步充实和展望了他去年曾说起的虚拟工作间,这实际上是前面各项技术的汇总应用(尤其是实时的 HRTF 语音和基于计算机视觉的重建)。注意大屏幕上左下角重建出来的拿着真实咖啡杯的左手。

abrash-16

结语

与前两届 Connect 大会上 Abrash 的发言相比,本次的内容更趋于细致化和具体化。这一点,从 Abrash 的结语也可以看出来:

“The way technological revolutions actually happen involves smart people working hard on the right problems at the right time.”

abrash-17

那么哪些是 right problems ?

我们一个一个来看,

首先,去年曾完整阐述的感知系统——视觉,听觉,触觉,嗅觉和味觉,再加上 (用于感知速度,加速度,空间位置和控制平衡) 的前庭系统 (vestibular)——里曾一笔带过的视觉 (Vision) 一节,在今年被展开成最重要的三个分类——光学和显示 (Optics and displays)、图形 (Graphics) 和计算机视觉 (Computer Vision) ——并分别定义了明确的目标。

其次,完备的眼部追踪作为"最大的单一风险" ("Greatest single risk factor for my predictions") 成为横在诸多潜在突破点面前的障碍。这一挑战原本被认为只是工作量的问题,现在已被证实比预期的更为艰巨。而从实践角度出发,不那么完全精确的追踪虽然保证不了完美的体验,但只要交互设计者不要把精确的定位作为交互的核心,就可以一定程度上缓解这个问题。就好像是我们从PC上鼠标的精确定位,慢慢过渡到移动平台上依赖手指的粗略定位,而并没有感受到太过不适那样,交互语言本身也会进化来适应眼部的运动特性。另一方面,所谓的凹式渲染 (foveated rendering) 也可以不用一上来就把自己定位到"与视网膜的密度分布完全匹配" 这样一个目标,在我看来第一阶段只要能做到识别大致的视线方向 (line of sight) 并把明显在该热点区域之外的部分低分辨率化,已经能省很大量的像素渲染量了。热点区域可大可小,可依据当时的眼部追踪精度而定,甚至可以在眼部运动剧烈不易判断时放大,而在静止容易判断时缩小 (就如同 GTA 等游戏里的小地图,当你运动速度快时能看到更大范围的小地图,而速度降下来时小地图也随之拉近)。

最后,我们注意到 Abrash 明显注意到去年涌现出来的 AR 和 VR 之间的诸多形态 (即所谓的 Mixed Reality / Augmented VR 等等)。在此前一直被孤立对待的重建 (Reality Reconstruction) 方面的研究,现在看起来优先级提高了,并有了针对社交情境和工作情境这两个重点场景的比较完整的思考。行文至此,我们很自然地发觉,能把 Abrash 和 Carmack 邀请到一起工作,对 Oculus 而言是非常幸运的事——Abrash 偏社交和工作交流,Carmack 偏游戏和娱乐交互;Abrash 强于理论,Carmack 重在实践;Abrash 关注面向未来的基础设施,Carmack 执着于把当下已有的技术做到极致。他们在一起形成了从工作到游戏,从科学理论到工程实践,从现在到未来的完美互补。

很多人说 2016 年是 VR 元年,但我们深深地明白,随着消费级产品的发布,漫漫征途才刚刚开始。还记得初代 iPhone 发布时的情景吗?初代 Android 呢?在这场刚刚拉开大幕的华丽演出中,你愿意成为座椅上的观众,还是舞台上的演员?

我们屏息以待。

[完]

Gu Lu


[注]

  • [2016-11-20 00:38] 初稿
  • [2016-11-24 09:49] 修订
  • [2016-12-18 06:26] 发布到 Blog知乎专栏

知识共享许可协议
本作品由Gu Lu创作,采用知识共享Attribution-NonCommercial-NoDerivatives 4.0 国际许可协议进行许可。