也来谈谈苹果的Vision Pro的创新

Vision Pro产品发布过去一天了,各路自媒体或行业专家也陆续发布相关看法。目前来看,热度很高,褒贬不一。

衡量创新的最好办法是认识什么是【新】。作为一个开发并体验过多款主流XR眼镜接近5年的在读phd来说,大概能比吹上天的自媒体聊的深一点。

本文在假定发布会全部内容和实际体验反馈全部真实可靠的前提下,拟对发布会内容作个小结,并尽量理性客观地聊聊自己的评价和看法。欢迎交流讨论,不妥之处请轻拍。

发布会和实测评价指路:

【4K中字】2023苹果全球开发者大会(WWDC23)全程回放_bilibili (从1小时20分开始是Vision Pro时间)

「小泽」Apple Vision Pro 真机佩戴体验:今天下午,我看见了未来。bilibili

2019年末的个人XR回顾:

入局两年间,我所认识的增强现实和虚拟现实)


先上一张思维导图概括:

下面分操作系统、硬件和应用三部分展开。

VisionOS

在PC、手机、平板、手表后,交互终端迎来新形态,操作系统自然也需要重新设计。

可调节沉浸感

1994年,Milgram等人曾提出混合现实轴线,从完全现实向完全虚拟的形态过渡。

过去几年,大多数产品都是以单一沉浸感的形态出现。比如Google Glass (纯AR), HTC Vive (纯VR)。微软发布第一代Hololens时开始提Mixed Reality (MR)概念,希望打造虚拟-现实中的桥梁产品;HP Reverb设备在Windows MR框架下做出了沉浸式办公终端。Vive和PICO的后续产品线开始尝试Video See Through (VST, 内向外透视) 方案的工具包。但大多数情况下,受限于采集或显示端的低分辨率,这些切换沉浸模式的功能相对鸡肋。

在前面大量产品的探索下,VST+沉浸度可调节的方案本身很容易想到,但稳定集成应用难度很大,且为大量应用提供了功能基础,实用性也很高,旋钮调节很自然。

本功能个人评价如下:

  • 创意难度:1分
  • 实现难度:5分
  • 功能价值:5分
  • 综合:3.7分

交互

作为个人近几年比较深入探索过的领域,看发布会前最期待的就是苹果对XR产品人机交互形态的定义。甚至在想如果苹果发布出来,直接把大量研究问题解决了该怎么办(就像ChatGPT对NLP领域的降维打击一样)。事实表明并非如此,在对苹果略感失望之余也对课题方向添了些许动力。

交互三大件:眼动、手势、语音。每一项都已经趋近成熟。集成来讲中规中矩,但很难达到让人惊艳的程度。

不少媒体很容易高估眼动交互的优势,低估长时间使用时的副作用:疲劳/眩晕/误操作.. 这些副作用在学术界讨论了很多年,甚至评价标准都难以完全固定。即使苹果把用户体验的优先级放的非常靠前,目前在交互模式的选择上也很难说完美。至少个人在过往的开发经验中,刻意转动眼球视角,无论是精确性还是舒适度都远低于手柄/鼠标。设想一个简单场景,你需要编辑一段文字,如何用视线来选择要修改的位置?

至于手势,光学追踪方案一定存在视觉盲区,导致手不能超出身体正面活动区。隔空交互看着酷炫,实际输入效率远低于实体键盘。即使可以将输入框拖放在桌面上,用户喜欢按一张画着键盘的纸,还是喜欢敲击长键程的机械键盘呢?当然,桌面敲白纸的体验和效率肯定是比敲空气好太多了。

语音识别,还是输入效率问题。产品里必须有,但并不是最优解。

所以,交互方面唯一的亮点,个人看来是最后提到的EyeSight:头显内外,双向奔赴。即,戴与未戴头显的两个人,能够互相观察到对方的面部表情,并进行比较自然的眼神交流。另外一些显示细节的优化暂时不表。

综上,交互部分个人评价如下:

  • 创意难度:3分(全给EyeSight)
  • 实现难度:3分(全给EyeSight)
  • 功能价值:3分(勉强能用,距离工作平台还差的很远)
  • 综合:3分

架构

计算和渲染,堆料环节,很有诚意,功能性拉满。

由于没有披露实现细节,不多评价,暂时可以给到4.5分以上。


于是新操作系统综合评分约为3.7分,能用,有部分亮点,但目测不够好用。

硬件

由于本身没有什么硬件背景,这部分相对简略些评价。

外观上没得说,流畅,整体,看着舒服。外接电池的方案非首创,目前受限于算力,也可以接受。评价4.5分。

视听体验方面,满分溢出。做到了XR一体机能实现的极致。高通骁龙XR2的双眼4K+已经完全不够看了,领先一体机算力版本的水平。

计算单元也是堆料的顶点,同样满分溢出,12个相机+5个传感器++双自研芯片支撑,成本蹭蹭涨。

隐私保护方面表现普通,算是从手机到XR隐私的自然过渡。但XR本身就有先天性的隐私保护优势(旁人无法知道你在眼镜里看什么),所以也相对不算急迫。

于是,硬件部分在竞品里算无可挑剔,只是目前无法得知是电量先耗尽还是用户先疲倦(大概率是后者)。除去设备重量问题,其他层面接近满分,综合评价4.8分。

应用

苹果的应用生态建设长期是顶尖水平。Vision Pro在应用层面自然也有大量投入。根据发布会内容,大致可以分为原生应用升级、新应用支持、其他应用的兼容与定制化三方面。

原生应用升级

  • 图片浏览器:普通图和全景图是老生常谈。3D图很惊艳,猜测是苹果自定义的一套新数据格式。

  • 影片:巨幕和虚拟影院比较常规;环境漫反射和空间音频看上去像锦上添花,实际体验增益暂不明确。互动3D影片(恐龙Demo)看上去有不错的虚实融合效果,这与微软第一代Hololens上的空战小游戏RoboRaid很像。思路常规,主要还得靠硬件加持+艺术创作
  • 浏览器:展示了大量文本和大量图片的网页,常规操作。
  • 办公软件协同:常规操作。
  • FaceTime:提出Persona系统,解决了佩戴头显时的人脸显示问题。运用类似EyeSight思想,让人与人之间保留表情和眼神交互。

  • 与Macbook协作办公:常规操作。

这一部分的两大亮点是3D图的采集、处理与显示,以及视频通话中的Persona。其余更新对于苹果而言算小修小补。

  • 创意难度:4分(3D图和Persona)
  • 实现难度:4分
  • 功能价值:4分(基础平台建设基本完善)
  • 综合:4分

新应用支持

  • 游戏:演示了NBA2K23和Disney+的大饼,声称目前支持100+新应用
  • 禅静空间:放松冥想用的环境。idea很自然,重点在美术。
  • 行业应用:解剖教学(医学)、车辆装备解读(工业设计)、虚拟流水线(工业制造)、虚拟DJ(音频可视化)、虚拟天文馆… 可以说苹果选择了一些业内公认比较酷炫又相对有价值的应用形态进行展示。其中最亮眼的大概就是音频可视化,但宣传片里一闪而过。

所以整体上看,新应用形态方面新意一般,亮点主要还是艺术设计。

  • 创意难度:2分
  • 实现难度:2分
  • 功能价值:3分
  • 综合:2.3分

应用兼容/定制

支持了Office、常见的视频会议应用、开发者工具包、Adobe大礼包(仅演示了Photoshop,可以看到UI相比PC版有些变化)、Unity。中规中矩,但投入工作量不小。

  • 创意难度:2分
  • 实现难度:4分
  • 功能价值:4分
  • 综合:3.3分

综上,应用层面评价为3.2分。

总结

苹果官方最终总结的产品应用形态包括:

  • 远程办公
  • 保存全息记忆
  • 远程通话
  • 沉浸娱乐

并归纳为:

开启“空间计算纪元”

本文结合个人经验与媒体评测的反馈,从操作系统、硬件、应用支持三方面尝试解读Vision Pro这款现象级产品的创新性。设满分为5分,个人对苹果本次产品的综合评价为:

(3.7+4.8+3.2)/3 = 3.9

如果算上集成的完成度和完整性,可以给到4分左右。


最后说明,本文大多数观点是基于发布会材料和现有同类产品体验的推测,并不等同于Vision Pro的实际产品效果。距离公开发售足有1年的建设周期,苹果仍有大量打磨提升细节的空间。

个人通篇使用比较严苛的视角去解读,大概也是带着一些期待值去等的发布会。最终等到的Vision Pro,说实话比较失望,但对于整个行业来说算是拔高上限的一大步。

XR的春天到来了吗?没有。2W+的产品价格,除开科研使用和少数科技发烧友的狂热追逐,我实在不觉得能像iPhone一样大规模普及。如果摩尔定律在XR产品上依然成立,同等配置价格下探到2000元附近还需5年以上。那时,VR才有可能真正迎来普及的机会。那之后再往后的10年,可能会出现下一批XR领域的内容服务企业。

希望明年真正发布的时候,那些齐声喊着【买买买】的各路自媒体创作者们,掏出真金白银去买一台Vision Pro用来个人办公,大力支持XR产业——不要写稿子跑的比谁都快,掏钱的时候躲的比谁都远。(为什么写到这里有戾气,因为【VR元年】和【元宇宙元年】这种玩意听腻了。。)

如果真的想体验实用有趣的沉浸式设备,不妨用不超过Vision Pro 1/10的价格入手一台Pico或Oculus一体机感受一下。我相信除了生态外,苹果能有的应用形态,国内外其他厂商也可以搞得像模像样。


强如苹果,依然有大量没有解决的问题。学术界和产业界任重而道远,勇敢的人仍在一直向前。