本文系微信公众号《大话成像》,知乎专栏《all in camera》原创文章,转载请注明出处。 大话成像读者QQ 交流群2 :833282006 大话成像技术论坛:ww.dahuachengxiang.com 微信群请先加 zxzombie
本站新教学视频《图像传感器技术与应用》上线淘宝教育
《成像系统图像质量调试》《成像算法基础(python版)》 《成像系统镜头光学》《新版图像质量测试测量与国际标准》《新版cmos sensor测试测量与国际标准》《新版数字成像系统42讲》课程大话成像淘宝官方网店有售:
https://shop322456667.taobao.com/
尽管 Apple Vision Pro 在今年的销量仅为五十多万台,但是它成功奠定了未来全新且独特的 VR 产品交互基础。Vision Pro 的整个交互体系均以视觉为核心基石。如今,虽然该设备已经发布数月,然而由于其定制的硬件众多,许多信息尚未有明确结论。因此,本文结合 Yole 以及其他公司的拆解报告和相关论文,来探讨一下其使用的摄像头数量和相关参数。
首先,Apple Vision Pro 内置的摄像头总共有14 个依照其主要作用大致可分为以下几类:
主摄:2 个,用于模拟人眼拍摄空间视频
3D 摄像头:TOF 摄像头 1 个、结构光摄像头 1 个
眼球追踪:2 组,每组 2 个,共计 4 个
SLAM和手势摄像头:6个
主摄:
根据官网的详细描述可知,Apple Vision Pro 的两个主摄的分辨率各自为 650 万,这与先前众人所猜测的 4K 分辨率存在差异。以下为个人对于这一情况的一些分析猜测:
首先,可能是受限于空间视频的分辨率能力。要知道,如果是 4K 单摄,那么在空间视频的呈现中就相当于 8K 的分辨率要求。如此高的分辨率对于解码平台和编码平台而言,无疑是巨大的压力挑战。在实际的使用场景中,要对如此高分辨率的视频进行实时处理和传输,需要极其强大的硬件性能支持。然而,目前的技术水平在保证流畅度和稳定性的前提下,可能难以满足这样的高要求。
其次,考虑到 Vision Pro 很多场景是在室内使用,这就意味着照度通常不会太高。而且,很有可能会有许多用户在卧室内关灯的情况下使用该设备。同时,为了确保实时性和流畅度,曝光时间也不能太长。并且需要尽可能降低头戴的重量和尺寸,不可能用太大靶面的sensor,在这样的条件限制下,增加 Pixel Size(像素尺寸)就成为了提升低照度能力的一种有效方式,因此只能降低分辨率。
另外,为了保证远焦和近焦的清晰度和视场角的保证,Vision Pro 的镜头规格被设定为 18mm 定焦和 1/2.0 光圈。
3D摄像头:
与以往的 iPhone、iPad 等设备在同一面只放置一个 3D 相机的情况截然不同,Apple Vision Pro 为了确保在近场和远场都能够实现高精度的 3D 感知效果,因而精心采用了两个 3D 摄像头。
由于 Vision Pro 在近场方面存在面部扫描等高精度需求,为了满足这一需求,它延续了手机前摄的设计思路,巧妙地运用了结构光摄像头。结构光摄像头在近场场景中具有独特的优势,能够精准地捕捉物体的细微特征和轮廓,为面部扫描等高精度应用提供强有力的支持。根据拆解的一些数据,因为摄像头Apple 定制的,但是根据拆解的数据,其中结构光摄像头应该是采用了ST的1.5MP 全局曝光sensor,该sensor的尺寸接近方形,其规格类似于公开的版本 VD56G3,关于VD56G3的一些特性,在大话成像之前的公众号 《传感器的新篇章:从人类视觉到算法感知》(https://mp.weixin.qq.com/s/s08La8Qj-XUkF3n4Q7pRow )中有介绍过。因为其应用场景要远于手机前摄,发射和接收的Baseline设计为4cm间距,采用了940nm 结构光。
而在远场方面,Vision Pro 则选用了 ToF 摄像头。ToF 摄像头能够在较远的距离范围内快速测量物体与设备之间的距离。TOF 摄像头被放置在设备的正中间,它采用了与 iPhone 13 Pro max 同款的 Sony 传感器。同样也采用了 940nm 的波长。由于处于同一波段并且两个摄像头需要交替使用,由此可以推测,R1 芯片应该设计了相当复杂的交替和同步机制。
眼控、SLAM、手势摄像头:
Vision Pro非常重要的一个创新是采用了凝视+捏合的交互方式,这种交互方式的出现具有突破性意义。它打破了传统交互手段的局限性,为用户带来了全新的操作体验。用户不再仅仅依赖于繁琐的按键操作或单一的触摸动作,而是通过简单且直观的凝视动作确定目标,再结合自然的捏合动作来实现相应的功能。而该项功能的实现完全依赖强大的眼球追踪性能和手势识别性能。
另外,根据拆解报告中的图片所示,有一个令人颇感意外的发现,那就是 Vision Pro 的所有 Slam 类摄像头以及眼控摄像头极有可能采用了同样的传感器。在针对此Sensor的猜测上,本文看的不同的报告给出了不同的结论,有的报告显示为1.8Mp 1.5µm,有些报告为0.3MP。考虑到SLAM和眼球追踪采用全局曝光sensor,并且因为全局曝光sensor固有噪声大的问题,因此不太可能采用1.5um 像元,另外因为眼控需要很高的帧率,考虑到该颗sensor 的面积为4.47 平方毫米,因此笔者认为该sensor 为0.3-0.4MP的可能性较大,很有可能是类似于ST VD55G0类似规格。