苹果VST头显一定是主流?Rokid 和 XREAL 更倾向于消费级AR「主机」
数学家 Grothendieck 有句话, “构成一个研究者创造力和想象力的本质是他们聆听事物内部声音的能力”。
一个有着30年开发历史的“新产品”,关键技术一代代推进,经历过充分产品验证和选型试错,如果预想中的大规模使用场景迟迟未能实现,证明这条路线可能存在某些根本性的障碍。
VST沉浸式头显,也许一开始就是错的。
01 先驱索尼
早在32年前的1992年,索尼就研发出Sony Visortron,作为一种头戴式显示器(HMD),搭载了早期的液晶显示器(LCD),图像质量在当时也算出类拔萃。 Sony Visortron 可以作为电视“接收器”使用,它也强调“大屏”,拥有沉浸式观看体验,等效画幅约为1.2米处观看“33英寸电视”。
Sony Visortron产品定位和预想使用场景,与今天的VST头显类似,在当时就有日本航空公司采购,设想以“头戴私人影院”方式让乘客们消磨枯燥的长途旅行时光。
Sony Visortron为萌芽中的“虚拟现实”概念提供了一个现实范例。随后开发者与今天的VR头显一样,瞄准最具有商业潜力的游戏应用,甚至开始研发体感运动游戏所必须的全身追踪技术。然而厂商各种努力统统都归于徒劳,消费者无法对这类产品产生真正的兴趣。
比如著名的游戏机厂商SEGA在1993年研发的“Sega VR”最终流产。作为20 世纪 90 年代初开发的一款最终未发布的虚拟现实头戴设备,Sega VR仅在一些贸易展览和博览会上公开展示,先是发布被推迟,在遇到开发问题后被彻底取消。在取消之前,至少有四款使用该硬件的游戏正在开发中。
从90年代开始,索尼不断在HMD设备上推陈出新,比如1996年发布的 Sony Glasstron 系列,首款产品PLM-50拥有更加沉浸和便携的视频观看体验。1998年索尼又推出了第二代产品Sony Glasstron Lite 系列,产品外观更加时尚小巧,升级到等效52英寸屏幕的画幅,还可以与当时索尼最新的DVD播放器和家用游戏机连接使用。
1999年,索尼推出了 LDI-100B,该设备开始被应用于医疗可视化以及设计和建筑等领域,并且与虚拟现实可视化场景中的基本追踪技术结合使用。与当时昂贵的商业头戴式显示器,索尼提供了一种更具成本效益且更加轻便的HMD解决方案。
随后索尼又在3D显示和“摄像头透视”等产品特性上寻得灵感。经过持续不断的方案改进,2012年索尼推出了 HMZ-T1系列,达到了等效150英寸屏幕的画幅效果,紧接着又推出了第二代产品 HMZ-T2,开始了早期的透视技术的研发。Sony HMZ-T2 Prototype-SR正面中央有一个凸出摄像头,能够将所拍摄的现实世界的视频传输到头戴式显示器中,达成了现实意义上的混合现实体验。
02 VST头显的极致演绎和边缘物种OST分体式设备
VST路线的虚拟现实,30多年来的迭代有一条清晰的路径:
- 超密集像素的OLED屏幕取代了LCD,空间分辨率越来越高;
- 光学透镜模组趋向复杂精密,近眼显示综合效果更加“干净”和“舒适”;
- 混合现实所必须的摄像头透视VST,关键的传感和画面延迟,畸变矫正算法,实时处理算力不断突破极限。
然而塞进去的东西越多,追求的性能越极致,体积、重量、成本就越难平衡。
苹果Vision Pro几乎触及了VST头显的光学、显示、传感器、算法算力、人机交互几乎所有关键特性的天花板,它的市场表现却让人失望。依靠摄像头透视的混合现实,究竟是技术发展还不到位,硬件极限还远远未被挖掘,或者归因于内容生态迟缓且碎片化,没有类似PC形成标准体系?
经历30年的发展和试错,强如苹果Vision Pro 在全球刷屏,内容和应用生态还无法自持,销售没有后劲。你很难不反思,VST产品路线的底层困难并未被完全洞察,或者,索尼、苹果这些大公司的产品路线,根本就是错的?
跟索尼90年代最初的设想类似,理想状态下,都认为机舱环境几乎是Apple Vision Pro这类VST头显的最佳使用场景,与在小桌板或者腿上打开电脑敲键盘相比,还要操心屏幕内容被邻座看见的体验相比,Apple Vision Pro提供的视线隔绝以及本身的超高清显示简直是革命性体验。Apple Vision Pro穿透视频超过人体可感知阈值的超低时延,也基本最小化了由此带来的眩晕和不适。
现实情况是,Apple Vision Pro并没有被看到在飞机旅行等场景大规模普遍使用,因为只要使用频度和时间上来,VST摄像头透视不可避免的晕动症、视觉辐辏冲突、高分辨率超大FOV显示,很快就让你眼睛不适,大脑疲劳。尝鲜几次很震撼,但基本不可能变成司空见惯那种高频使用。
即使是最死忠的苹果粉,Vision Pro在家庭和其他消费场景应用上,也很难避免“买回来不久就吃灰”的情况。关键原因,可能就是之前文章《关于Apple Vision Pro的一些启发》所阐述的,
“ Apple Vision Pro 能否成为“空间显示器”,关键不在你采用了哪种先进面板,不在显示质量、分辨率,也不在刷新率,而是一个人体工学的问题,在于人类视觉的底层机制变成了阻碍。Vision Pro 的R1再怎么强大,video数据流处理过程再怎么先进,画面延迟再低,用VST就无法解决运动状态下凝视画面,耳蜗-前庭-眼球协调的问题。只要看到的画面运动刷新和内耳检测到的旋转速度不一致,晕动症或多或少就会发生。解决方案似乎只有发展真正的光学透视,天然的OST过程,光子打到视网膜转化为视觉神经信号传输到大脑,才能真正消灭延迟。 ”
面向未来的竞争高度不确定性,正确的产品形态是试错得来的,而不是一开始就有标准答案。
VST一体式头显和OST的分体式设备,索尼和苹果持续几十年在不遗余力推进,后者是几乎被大公司过滤的简陋形态,但如果你仔细观察,充分体验过两种产品,不难发现OST分体式设备有破坏性技术产品的种种征兆:
1)一出现就带有明显的品质缺陷,无法被现有市场的主流产品客户认同,具有典型的灰天鹅特质。OST分体式设备的传感和人机交互处于「低维」,技术保守,并没有完全的“混合现实”,那种高水准的虚实融合体验。
2)由于无法被市场认同,所以很难在现有市场成功销售。其所应用的市场不可知,需要开发。消费级AR确实是目前被大公司看不上的边缘物种,中国只有像Rokid、XREAL、雷鸟几家在笨拙试错,市场规模也是肉眼可见的小,特别是相比VST一体机头显。
3)开发出的市场初期规模不大,与现有市场并不重合。
4)产品利润率并不高,可能还竞争激烈,企业失败的几率比较大。
Rokid AR Lite 空间计算套装和XREAL 最新发布的Beam Pro。两家都是采用BirdBath原理只有20%左右透光的轻便AR眼镜,用作沉浸式大屏幕、3D显示。两家都是在空间中虚拟出一块“大屏”,做最基础的虚实融合,再搭配各自的AR“算力主机”,继承来自PC和手机的应用生态。
Rokid 和XREAL 的OST分体式设备,跟Apple Vision Pro在软硬件上完全不是一个档次的产物。Vision Pro 豪华至极,4K分辨率OLED硅基微显示屏,复杂的多模态传感器,分离传感器数据压缩延迟的专用芯片R1、桌面级的强大中央处理器M2、超级Pancake的定制光学模组,多年开发的画面矫正算法,推倒重来全新体系的人机交互....Vision Pro硬件堆料做到了什么程度?仅传感器就配置了十几个,包括用于眼球追踪的红外相机,进行LiDAR SLAM的dToF雷达和深度相机,不同位置用于VST、超大范围精准手势识别、或视觉SLAM(未确定)的高清摄像头。
在Vision Pro身上,VST路线进行了彻底的硬件“暴力演绎”,未来的技术潜力几乎被榨干。但这真的是用户想要的?索尼有几十年沉淀,苹果更表演了极致,市场的反馈依然不乐观。
部分透光 BirdBath原理的消费级AR眼镜,和集成了传感sensor、算力芯片、电池的AR主机,组合在一起成为OST分体式设备。思路是当下技术条件下,进行虚实融合显示效果、成本、应用场景进行最大化妥协。这样的“空间计算套装”,在移动轻办公和移动娱乐上,是可以部分取代笔记本电脑、平板电脑、手机,如果硬件配置更高功能还能进一步增强。以及,Rokid AR Lite和XREAL Beam Pro的“空间大屏”带来了场景、位置、身体姿态完全自由的虚拟3D大屏,几乎在任何场景都能获得巨幕观影、网页浏览、游戏娱乐的无碍畅快体验。
Rokid 和XREAL 两家不一样的地方,Rokid AR Lite是AR眼镜搭配一个可以进行“空间触控”交互操作的算力主机,重点在空间操作系统、人机交互上低门槛和快速上手槛,以及针对虚拟大屏的优化,比如简单拖拽就可当作“多联屏”使用,虚拟屏幕大小可调,还有巨幅画面显示运动防抖的特性。
XREAL 跟 Rokid一样,这一代AR眼镜基本不做硬件迭代,前几天发布的AR主机Beam Pro,重点在空间影像拍摄+3D显示形成体验闭环,将有深度信息的空间影像的用户价值发挥到淋漓尽致。XREAL Beam Pro相比Rokid AR Lite套装的Station 2主机,体积更大、更重,增加了一对间距较大的摄像头模拟双眼立体视觉,并且主机保留了实体显示屏,售价出人意料地便宜。XREAL Beam Pro针对空间操作系统的优化,人机交互体验在发布会上并未提及,乍一看就是一部不能打电话的“红米手机”。
现在的消费级AR市场,在售价2-3万重量600多克的一体机Vision Pro之外,还有售价3、4千,AR眼镜只有70多克的OST分体式设备。空间计算除了耗费人力物力铺就的大道,还有羊肠小径可以探索。
从行业专家的口中得知,像Rokid和XREAL选择做AR主机更多因为现实无奈,手机大厂不开放硬件和系统权限,空间计算整体的系统、应用调用、跨设备人机交互是割裂且处处受限的,很难做针对性的深度优化。但有趣的是,供应链和行业专家也在传,苹果或将推出光学透视的消费级AR眼镜,它可以连接自家iPhone充当“AR主机“,可能进行OST分体式设备形态的“试错”。
VST本质是「转化」,把现实世界和虚拟世界转化成一个“世界格式”,虚实融合画面拟真的效果最好,一个坐标的SLAM、手势识别、虚实交互不割裂,流畅度极佳。而OST路线的好处就是「穿透」,与外界的「连接」和「交流」是无延迟、信息充分透明的。相比VST全程一个焦点凝视虚像,OST可以随意切换不同景深的自然景物,眼睛和大脑的疲劳能大大减轻。厂商面临取舍,而一旦定位成主流消费电子,归根结底,消费者几乎不可能适应“以放大镜或者潜望镜为主要方式”去观察世界,VST的根本性障碍一直在那里。
老调重弹也是预警:充满活力的技术驱动创业公司,在赛道切换时,是具备以小搏大的能力。大公司傲慢、迟缓,不愿意左手搏右手,放弃已有巨大市场份额和利润的产品形态。在全新的产品形态,还未体现出完全压倒性的竞争力时,会被内部掣肘、打击、否定,被不合适的流程和企业文化拖累。这时候创业公司的机会就来了。
就像《创新者的窘境》所描述的:
“ 就算经营最好的公司,尽管他们十分注意顾客需求和不断开发新技术,但都可能被破坏性创新所影响而导致失败,而覆灭的种子恰好是在领先企业全盛时埋下的。企业把自己的优点极大化后,没留余地让自己冒险。就是说他们仍然在追求“正确的做事”,而全然未意识到——它做的事可能已不正确了!最后在遇到破坏性技术变革和市场结构变化时,都成为一百分的输家。 ”
本文来自微信公众号“AR研究媛”(ID:ar-supergirl),作者:研究媛,36氪经授权发布。