电子说
虚实共生从梦想到现实,VR热潮从未消退“元宇宙”能消除数字和实体之间的界限,打造人类“虚实共生”的数字世界。
“元宇宙”(Metaverse)指的是一个源于现实世界,与现实世界平行并相互影响的、可持续的虚拟世界,人类可以在其中以高自由度形式进行娱乐、社交、生产生活。基于虚拟现实(VR)或混合现实(MR)终端所实现的“元宇宙”是人类通信交互经历了文字、语音、图像、视频之后的下一代升级方向,即实现3D实景信息的共享。MR设备商业化的尝试从未停止,其中VR涉及技术相对成熟,早于AR试水消费级市场,并有望在AI、区块链等新兴技术催化下进入爆发期。
VR设备最早可以追溯到上世纪50年代,一位美国摄影师发明了第一台VR设备,此后,第一台头显(俗称“达摩克里斯之剑”)等一些原始设计相继涌现。20世纪90年代,商用设备开始出现,例如任天堂的VortualBoy游戏机,1991年甚至出现了VR街机。另外,军事领域的应用也是VR设备发展的重要驱动力。但当时的技术没有跟上市场的想象,游戏画质差、设备价格高、画面延迟、设备计算能力不足、使用不舒服等缺点难以攻克,阻碍了VR设备的进一步发展,即使到了当下,这些问题仍是VR产品的核心痛点。
对比智能手机发展历史,VR设备处于加速迭代期回顾智能手机的历史,现在“无所不能”的手机也是从看起来“并不智能”的阶段发展而来,从1994年第一部智能机发售,到2017年季度出货量首次下滑,前后约23年。期间大量厂商不断创新,接受市场检验,最终保留市场需要的功能,这些功能由点,及线,至面,最终迎来行业大爆发:
原点萌芽期(1991年~2000年):最核心的触摸屏和网络连接功能出现,但因配套环境不成熟难以推广。1991年2G正式商用,智能手机开始萌芽,1994年,IBM的SPC开始发售,它是世界上第一部智能机,仅具备触屏和电子邮件等功能,笨重且并不“智能”;1996年,诺基亚Communicator,第一款带有网络浏览器和GSM互联网接入的智能手机问世,尽管互联网接入功能具有划时代的意义,后续大部分智能机都配备该功能,但由于当时移动数据价格高昂,仍难以普及。
加速迭代期(2000年~2007年):各品牌逐渐明确智能手机将成为移动终端的长期趋势,手机功能开始高频率创新迭代,期间不乏卖的不错的款式,但并未形成全民换机需求。一些重要功能经过市场的筛选,逐渐累计在智能手机上,比如彩屏、摄像头、MP3等。2000年,多款带有摄像头的手机出现;2001年,西门子推出了第一款带有可更换存储卡和集成MP3播放器的手机“SiemensSL45”;2002年,诺基亚推出了“诺基亚7650”,是世界上第一款带前置摄像头的智能手机;同年,索尼爱立信P800发布,这是第一部搭载彩色触摸屏的智能手机。
全面爆发期(2008年~2017年):2007年,专用手机系统IOS和安卓推出,智能机的核心扩展能力出现,配合第一代iPhone的出世,智能手机基本稳定了去物理键盘、可扩展应用系统的成熟形态,在C端市场激发了客户需求,形成强大的换机驱动力。2007年1月,苹果CEO展示了第一部iPhone,将移动电话、iPod、电子邮箱、Internet浏览器、导航和众多其他功能结合在一起,并完全摒弃物理键盘,首推手势控制,采用3.5英寸高清屏幕,在硬件和软件方面都达到新高度。尽管2007年苹果的销量仅139万台,但苹果开始改变消费者对手机的认知,2008年iPhone3G推出,全年销量1200万台,同比增幅737%;同年,Android操作系统推出,AppStore和GooglePlayStore依次面世,智能手机进入爆发增长期。
回顾近几十年VR头显商业进程,我们认为VR行业现阶段对应智能手机的加速迭代期。2012年前,对应智能机原点萌芽期,产品核心开始商业化尝试,Oculus等品牌开始研发原型机,从实验室走向市场;2013年后,行业进入加速迭代期,各大厂商开始重视MR成为下一代终端的潜力,Facebook收购Oculus,三星、Google、HTC相继发布产品;2017-2020年,更多的企业宣布进入VR行业,硬件迭代加速,一些高质量VR游戏出现;2021年,叠加疫情推动的电子产品消费需求,Oculus2成为圣诞节期间最受欢迎的VR设备,累计销量突破1000万台,并形成了较为完善的内容生态体系,但非电子发烧友或游戏玩家的用户大范围购买的需求并未出现。
VR内容和硬件都还需要大量的资本投入支持技术迭代,即使是销量最好的Quest短时间内也无法盈利。4Q22Meta净利润46.52亿美元,同比下降55%。其中,元宇宙部门RealityLab继续亏损,4Q22实现营收7.27亿美元,同比下降17.1%,1-4季度分别亏损29.6、28.06、36.72、42.79亿美元,全年亏损137亿美元,2021年亏损102亿美元。若考虑2019-2020年未披露年份,Meta元宇宙总亏损近300亿美元。Meta的业绩不佳,导致4Q22至今大量裁员,并削减23年预算,降低50亿至890-950亿美元,但Meta已经做好了未来四年的产品规划。
根据TheVerge信息,AR产品方面,Meta计划推出第二代和第三代智能眼镜Ray-BanStories,并于2027年推出代号为Orion的AR眼镜;VR产品方面,Meta计划于2023年推出Quest3,并将在未来几年陆续发布更便宜的头显Ventura,以及代号为LaJolla的头显。
AI——VR的隐形核心技术,推动交互方式变革
AI升级可能带来人机交互的变革。在VR技术中,实现智能人机交互有三个关键要素——多模感知能力、深度理解能力和多维表达能力。精细的多模态、高智慧模型可以帮助VR头显以消费级的成本实现以语音控制为辅,以肢体动作为主的全新交互方式。
通过引入多模态识别系统,在语音识别的基础上,结合人脸识别、嘴部唇语识别、眼动追踪,把多种维度的感知结合成为多模态系统,从而提升复杂场景识别效果。
AI在VR肢体定位和手势交互技术上大有可为,让高精度手势识别成为可能。当前,VR设备主要通过红外摄像头+陀螺仪的硬件组合,结合机器学习来实现肢体定位,需要手柄辅助。存在成本高、配件多、缺失下半身等问题,精细度也较差,难以实现高精度手势识别。我们认为未来肢体定位和手势交互的升级主要依赖于算法模型的升级,2019年Meta发布了手势交互1.0,可以进行一些简单的裸手交互,但是用户双手重叠或移动过快都会造成跟踪丢失,2022年,Meta发布手势交互2.0,解决了上述问题,并在公告中表示:主要是基于重新设计的计算机视觉和机器学习方法。
而在内容方面,AI可以缩短创作时间,为元宇宙提供底层支持。以虚拟人为例,AI作为虚拟人驱动的大脑之一,既是虚拟人能够在元宇宙感知行为并做出反馈的核心要素,也是其掌握与学习技能的关键所在。亚马逊云科技的AI服务在此领域有很多的应用实践,包括图像AI生成(自动上色、场景调整、图像二次元化)、模型自动生成(动画自动生成、场景道具生成)、游戏机器人(游戏AINPC、文本交互、语音驱动口型动画、动作补抓、表情迁移)、偶像营销运营(聊天观察、流行搭配、反外挂)等。
据IDC数据,预计到2026年中国AI数字人市场规模将达到102.4亿元,市场将呈现高速增长态势。3D模型创建属于“劳动密集型”行业,也将受益AIGC升级。创建专业的3D内容需要较高的艺术与审美素养及大量3D建模专业知识,门槛高,制作也耗时耗力,某种程度上属于“劳动密集型行业”。2022年11月,英伟达提交论文展示了可以通过文字生成3D模型的Magic3D,例如输入“一只坐在睡莲上的蓝色箭毒蛙”,Magic3D即可生成一个纹理、造型兼备的3D模型(图21)。此外,它还可以具备将2D图像样式应用于3D模型等能力。创作者只需要在Magic3D基础上稍作修改,就可以当做游戏或CGI艺术场景的素材了。
内容方面,Meta已经在内容产生、技术更迭、终端放量间形成生态闭环。OculusVR软件内容包括QuestStore和AppLab两大平台:QuestStore主要为VR内容应用分发平台,面向独立工作室、游戏工作室、发行公司等专业VR游戏从业者;AppLab则是基于玩家社区的,更侧重前沿内容、测试性VR应用开发的平台,AppLab应用并不显示在Quest商店中,开发者只能通过链接在已有的分发渠道与用户分享,比如SideQuest等。(SideQuest平台主要承接未在Quest上线的游戏)。Horizontalworlds则一方面欢迎创作者建立虚拟世界,另一方面是内容创作者和使用者同步交互的社交网络,形成传播效应。
Pico:国内销量领先,依靠字节跳动流量优势
从硬件角度而言,Pico在VR一体机领域技术迭代速度领先。2016年,Pico发布了全球第一台搭载高通骁龙820的VR一体机PICONeoDK,它创新性的将手柄作为整个VR一体机的计算核心,将SoC、内存和闪存集成在了“手柄”之上,然后把VR眼镜与手柄通过一根Type-C线进行连接,以此实现移动VR形态。
2015年Pico获得歌尔股份数千万元投资。2017年,PICO推出消费级G系列一体机PICOGobin(小怪兽)。同年发布的还有PicoTracking,帮助VR头显定位的追踪套件,它采用Outside-in定位方式,标志着PICO交互技术进入6DoF时代。
2017年12月,PICO发布了PicoNeo,是全球第一台量产的Inside-Out6DoF一体机。2021年8月,字节跳动收购Pico,技术迭代加速。2022年9月,PICO举办“不止想象”新品发布会,正式发布了新一代6 DoF Pancake VR一体机PICO4和PICO4Pro,以及全新的内容生态战略,主打“运动、视频、娱乐、创造”四大场景。新硬件采用Pancake大幅降低硬件厚度、重量,支持眼动追踪、面部识别、裸手交互。
软件方面,截至22年3月,Pico总应用数200余款,其中游戏占比约75%。PicoStore主打精品策略,1H22上线42款新作,大部分VR内容来自海外引入,国内作品仅占7款。Pico缺乏重度游戏品类,Pico占比最高的游戏类别是益智休闲类,高达42%,其次为动作射击、冒险解密、运动健身等类目。PicoVR90%以上内容付费,价格在9元-140元之间,也明显低于QuestStore游戏。
游戏开发方面,尽管Pico有开放的环境,但尚未看到Pico公开层面的内容审核规则。Quest为了避免出现“劣币驱逐良币”的利达雅式悲剧,建立了非常严格的审查机制,这也是SideQuest平台存在的意义。根据ChrisPruett的演讲,一个应用要上线,必备流程包括:1)用不超过3张PPT来展示关于游戏的开发设想和规划;2)平台内容团队对其进行审核,关注游戏的消费者价值,以及经济价值(以10美元价值为标准);3)通过后,游戏会被添加至Oculus开发者计划中,并配备专业的客户经理、工程团队进行协助,从游戏性能法分析、设计、制作等各方面进行优化、维护;4)规划和推广游戏。一旦经过审核,Oculus和第三方开发商就站在了同一战线,形成平台、开发商和消费者共赢的局面,而Pico相对缺乏共同开发的过程。
Pico强项在于视频内容制作。目前,字节已经将PICO和抖音平台打通,开启双端直播,用户可以通过手机端直接观看VR直播,也可以通过VR一体机观看。在内容端上将PICO与抖音进行联动,试图实现客户导流。
Meta与Pico正在试图打破推广上的地域限制,行业竞争加剧,由于中国(除港、澳、台地区)无法访问Facebook,Oculus账号是与Facebook绑定的,因此Oculus几乎无法进入中国市场,而Pico在海外市场的渠道也不够成熟,从而形成了两家互联网巨头VR产品近乎独立的在国内外开疆拓土的局面。不过2022年以来,格局开始打破。22年1月Meta公开招聘大中华区通讯经理,下半年在中国香港推出元宇宙试点计划,同时考虑与腾讯合作,由腾讯引入OculusQuest2。同年9月,PICO召开全球新品发布会,领先国内,面向欧美、日韩、东南亚地区发布PICO4,对海外市场给予高度重视。Pico3Q22销量23万台,其中PicoNeo3为19万台,Pico4为2.4万台。
HTC:主攻高性能专业化领域,PCVR是强项
HTCVR终端共分为5个系列,较强的是PCVR产品:1)ViveFlow:可折叠、机身紧凑、轻量级的VIVEFlow是一款便于随身携带的VR设备;2)VivePro:高性能PCVR,主要面向狂热游戏玩家或资深专业人士;3)ViveFocus:一体机解决方案,为企业提供独立的VR解决方案,最新款Foucs3售价¥9888;4)ViveCosmos:翻盖设计PCVR,Inside-out版本售价¥5899,Outside-in版本售价¥7988,提供更高精度交互;5)Vive:面向游戏玩家的主流消费级PCVR,Outside-in定位方案,售价¥4888。2023年2月,CES2023是公司推出了首个MR产品,采用了高通骁龙XR2处理平台,LCD屏支持单眼2K显示,支持眼动追踪和面部追踪,采用Pancake光学方案,眼镜形态可折叠,电池可拆卸,官方售价1099美元。性能对标OculusPro和尚未发售的苹果MR,是MR领域的有力参与者。
HTC还基于自身定位算法优势积极向VR内容生产端硬件拓展。22年下半年,HTC推出其虚拟制作系统“VIVEMarsCamTrack”,该方案通过将实体摄影机的位置追踪工作流整合到一个具备专业级效果的实时渲染引擎中,整个虚拟制片过程将变得更快捷、更简单、更经济。VIVEMarsCamTrack是一个虚拟制作系统,在获取摄像机跟踪信息的同时,以3D形式实时合成真人演员和背景CG数据。通过利用HTC现有的产品,如VIVETracker,可以提供一个即使是小型制作工作室也可以轻松制作的环境。
PSVR:游戏主机厂硬件升级慢,3A大作丰富且注重体验感索尼的PSVR技术更新迭代速度较慢,2016年10月PSVR开始发售,比Rift和Vive大概晚六个月。即便如此,从参数上看PSVR离前面两款仍有差距,单眼分辨率1080×960低于Vive和Rift1080×1020,定位系统也有明显缺陷,重量也比Rift高了200g,但是PSVR使用了OLED屏幕、更高的刷新率、更领先的人体工学设计,以及最重要的PS4主机内容支持,使得其销量表现不俗。根据SuperDataResearch估计,2016年,HTC销售了42万台Vives,而Oculus销售了24.3万台Rift头盔,PSVR在上市三个月内销量就达到74.5万台。2017年12月,索尼公布PSVR的全球销量,突破200万台,2019年底,全世界累计销量500万台。时隔7年,公司2023年2月全球发售PSVR2。基础套装标价549.99美元。首发内容包括《地平线:山之呼唤》、《生化危机8》、《TheWalkingDead:Saints&Sinners–Chapter2:Retribution》、nDreams的《Fracked》、FastTravelGames的《ApexConstruct》、Coatsink的《Phogs》和《CakeBash》等合计37款游戏。
苹果:预计23年WWDC开发者大会发布首款VR/MR眼镜
23年3月30日,苹果宣布将于北京时间2023年6月6日至10日,以线上形式举行年度全球开发者大会(WWDC),WWDC23面向所有开发者免费开放,旨在展示iOS、iPadOS、macOS、watchOS和tvOS的前沿创新,同时开发者们也可以在活动中与苹果的工程师进行交流,深入了解新技术和工具,以更好地实现愿景。从邀请函的设计来看,图案类似于VR头显的光学透镜,市场猜测本次WWDC将发布首款MR眼镜。
三月下旬,苹果内部在乔布斯剧院向公司100位高管展示了苹果首款MR设备,主要有四大看点:一键切换VR/AR模式、眼动追踪及手部追踪功能(无额外控制器)、视频会议功能(用户拥有全身追踪渲染)、作为外接生产力工具(空气键盘)。目前,市场普遍预计这款产品售价将达到3000美金以上,未来的增长曲线大概率会如同AppleWatch一样,低开高走,逐步培养大众消费习惯,并占据该赛道大多数份额。
其他品牌:市占率相近,全球Top10有7家为中国企业
NOLO(北京凌宇智控科技有限公司):成立于2015年,核心班底由中科院博士领衔的技术专家组成,研发团队来自华为、小米、索尼、爱立信等全球顶尖公司。公司目前已经拥有200余项全球行业技术专利,专利覆盖超过12个主流国家。NOLO目前已经发布产品有NOLOSonicVR一体机、NOLOX1一体机;NOLOM1手柄、NOLOCV1Air、NOLOCV1Pro、C1交互套件以及NOLON2、NOLORX1500交互组件。
DPVR(大朋VR):2015年由陈朝阳及其团队创立,是国际领先的软硬件一体化的全栈XR技术与产品公司,致力于建设元宇宙的基础设施,并在其中打造更加富有效率的交互内容和形式,客户遍及海外40+国家,服务全球13000+开发者。
爱奇艺:公司成立于2016年12月,是一家由爱奇艺内部孵化、独立运营,专注于虚拟现实技术、产品与内容研发的科技企业。公司总部位于北京,自成立以来,公司即围绕VR技术、硬件、内容展开全面布局,截止目前,梦想绽放已先后推出了奇遇1、奇遇2、奇遇3、奇遇Dream、小阅悦等系列VR产品。
小派科技:主要产品为小派5K、8K(Pimax5K、8KSeries)系列VR高端头显设备,主打高性能PCVR头显,小派目前拥有数十项全球领先的专利技术,其VR头显的一大优势是良好的屏幕表现素质。
创维:创维集团布局虚拟现实和增强现实产业的子公司,国内唯一的一家上市的VR终端厂商。团队均拥有10年以上相关产品研发经验。目前,创维VR已申请过百项虚拟现实和增强现实相关专利,研发量产多款VR头戴显示设备产品,参与了多项虚拟现实国标和行业标准的制定,已承担国家重点研发计划“科技冬奥”重点专项课题“VR交互式智能终端与系统”。目前拥有VR一体机产品S6、S802、V901等。
弱交互领域竞争激烈,远期MR产生生产力
优先布局弱交互场景,国内厂商不落下风根据WellsennXR数据,2021年全球VR出货量达到1029万部,同比增长72.4%。2022年受Quest2涨价,以及全球经济增速放缓压制民众消费意愿影响,VR出货量将同比下降4%至986万部。WellsennXR预计2025年全球VR出货量有望达到3500万部(21-25年CAGR42.38%)。其中,国内的VR销售量占全球比例正快速上升,4Q22国内出货量占全球11.29%。
华为认为在VR的诸多关键技术和应用形态中,基于全景视频技术的VR360视频将成为最先繁荣的在线应用。而VR360视频又分为弱交互和强交互,直播和短视频都属于弱交互,即用户只能被动的体验录好的视频,无法与环境互动。根据高盛2016年发布的VR/AR产业报告,基于360全景技术的VR事件直播和VR视频娱乐到2020年将拥有5200万用户,其中事件直播2400万,视频娱乐2800万,占VR应用领域全部预期用户13000万的40%,而到了2025年,VR360视频的用户群将达到17400万,其中事件直播9500万,视频娱乐7900万。
长期我们看好电影制作、医疗、教育等toB应用,从游戏终端升级为生产力工具。2022年97%的VR为消费端市场出货,仅3%头显为B端场景出货,B端场景主要集中在教育培训、线下游艺、文旅党建等领域,VR产业部分实现了B端到C端市场的跨越。值得注意的是,2022年全球VR出货产品的形态与该数字高度一致,分体式占比3%,一体式占比97%,我们认为B端用户要求产品性能更强、续航更长,或是在某种性能上要求极为苛刻,但是便携性上要求较低,从而给分体式VR留下了稳定的市场空间。
VR在医疗领域已经展现出了较强的生产力和必要性。用途包括医疗教育(模拟手术、360度手术直播、同理心教育)、患者辅助治疗(减轻慢性患病者痛苦、部分代替阿片类止痛药、自闭症治疗)、临床研究(模拟实验环境、疫苗开发)等。ResearchAndMarkets报告显示,医疗保健领域的AR和VR市场规模2021年接近27亿美元,有望到2027年D该市场增长3.5倍,达到97.9亿美元。
而国内目前的医疗VR还集中于远程问诊、探视、镇痛等领域。2022年8月,全球领先的VR医疗初创企业FundamentalVR完成2000万美元B轮融资,其累计融资额度达到3000万元。该公司发行了一种可以在VR头显上运行的外科手术模拟软件。用户配合使用VR头显和手持触觉工具,就可以获得手术的沉浸式体验。借助这种软件,外科医生可以利用VR进行模拟手术训练,并收到虚拟骨骼或虚拟肉体的触感反馈。
教育方面,政策密集出台,展现出国内对于教育信息化的支持。《中国教育现代化2035》提出推动各级教育高水平高质量普及、实现基本公共教育服务均等化等战略任务,对于线上教育的重视提升。2022年9月,中央制定“千亿政策贴息+专项再贷款”组合拳,重点支持理论学习与实训操作的教育设备升级改造,推进高校、职校教育数字化转型。按照中移动“4G改变生活、5G改变社会”的5G产业意义解读,在教育市场5G会带来“真实体验式”教育的全面升级,并为远程VR教育提供坚实的基础设施。
VR教育投入涉及硬件、软件和空间建设费用,这对于大多数中小学,都是不小的资金压力。另外,内容端建设问题也是阻碍VR在教育中大规模应用的障碍之一,包括不专业、无体系、难拓展、难维护等。因此,VR教室目前仍以“教学科研”的性质为主。我们预计,随着VR产业规模化效应出现,成本下降至一般“PC教室”成本水平,内容端建设初成体系时,VR教育投资将迎来大规模放量。据Researchandmarkets数据,全球教育虚拟现实市场预计将从2021年的63.7亿美元同比增长36%到2022年的86.6亿美元。预计到2026年市场将达到329.4亿美元,CAGR为39.7%。
ODM厂商纷纷布局,硬件成本中芯片和屏幕成本占比最高VR产业链从上游主要包括:芯片、光学模组、面板、PCB、结构件、电池、传感器、摄像头等核心器件,中游为OEM厂商,下游为Oculus、Pico等终端厂商。就上游产业链而言,芯片、屏幕成本占比最大,光学模组为核心技术迭代领域。以Pico4为例,根据维深wellsennXR的统计,Pico4VR一体机8+128G版的BOM成本约为348.255美元,综合硬件成本约为368.25美元,按美元汇率为7计算,Pico4税后综合成本约为2913元。其中,芯片成本最高,约为116.45美元,占比31%,屏幕成本为84美元,占比23%,光学成本44美元,占比12%,传感器成本约为34美元,占比9%,ODM/OEM成本约为20美元,占比为5%,结构件成本14.2美元,占比为4%。
售价1500美金QuestPro是目前最贵的VR头显,由于交互功能升级,摄像头成本超过光学模组,根据WellsennXR数据,QuestProBOM成本约为587.6美元,综合硬件成本约为617.6美元,是Quest2的两倍以上。芯片成本最高,约228.美元,占比37%,屏幕成本约106美元,占比17%;摄像头成本约80美元,占比约为14%,光学成本约50美元,占比8%,电池电源成本31美元,占比5%,ODM/OEM成本约30美元,占比约为5%,结构件成本约27.5美元,占比为5%。
光学模组:长期围绕轻、薄、高质量成像发展Pancake已成确定性技术方向
VR光学先后经历了非球面透镜、菲涅尔透镜和Pancake折叠光路三个阶段。菲涅尔透镜(FresnelLenses)具有低成本和可控的成像质量优势,OculusQuest2、PicoNeo3、惠普ReverbG2和爱奇艺奇遇3等均为该光学方案的代表性产品。其设计原理是去掉光在透镜中直线传播的部分,只保留用来折射光线的透镜曲面,在保留常规透镜光学特征的同时,大幅压缩镜片厚度,实现镜片的轻量化。然而,由于该方案需要将屏幕放置在透镜的近焦面处,因此透镜与屏幕之间的距离较长,导致整个光学模组的体积较大。此外,由于菲涅尔透镜采用单层镜片设计,其物理性导致了成像边缘模糊、易产生畸变,以及无法调节屈光度等问题。
在此背景下,Pancake光学方案应运而生,并逐渐成为消费级VR光学的发展与进化方向。该方案基于折叠光路的原理,不仅能实现超短的光学对焦成像,从而极大地压缩镜片厚度和头显体积,还能克服传统的菲涅尔透镜光学方案边缘模糊与畸变现象,有效减轻“余晖效应”,实现零畸变的全域高清视觉体验。以Meta、Apple、Pico、华为等为代表的头部企业已经推出或即将推出以Pancake作为光学方案的VR头显。未来3-5年,Pancake将成为消费级VR首选光学方案。
Pancake光学方案的核心设计思路是通过偏振光的反射与折射进行光路折叠。Pancake光学方案,又被称为折叠光路方案,属于VR短焦光学方案的一种。该方案的原理是显示屏发出的图像源进入具有半透半反功能的镜片之后,光线在镜片、1/4相位延迟片以及反射式偏振片之间多次折返,最终从反射式偏振片射出后进入人眼。也就是说,该方案通过折叠式光学元件使光线在更窄的空间内穿越同样的距离,将原本光路“折叠”,从而实现光学镜头和显示屏之间空间的压缩,进而显著缩小VR头显体积。通过此种光学方案,理论上能将VR头显的体积缩小到菲涅尔透镜方案的1/4。
核心器件:半透半反镜、1/4相位延迟片、反射式偏振片
Pancake光学方案的核心器件包括半透半反镜、1/4相位延迟片和反射式偏振片:
1)半透半反镜:对入射光线做二次反射。半透半反镜(HalfMirrorLens)是一种轻薄半透的光学材料,属于分束镜(BeamSplitter)的一种特例,通过在光学玻璃表面镀上一层或多层的介电质或金属薄膜制备得到,用于将入射光束按透射与反射比为50/50的比例分成两道独立的光束。在Pancake光学方案中,半透半反镜主要用来对入射光线做二次反射,这一过程中不改变光的偏振特性,并且理论上光线每次经过半透半反镜后能量都会损失50%。
2)1/4相位延迟片(λ/4片):用于调整光束的偏振状态,使偏振光在线偏振态和圆偏振态之间相互变换。波动是物质运动的重要形式,广泛存在于自然界中。按照振动方向与传播方向的关系,波可以分为横波与纵波两大类:质点振动的方向跟波的传播方向垂直的波叫做横波,例如电磁波;质点振动的方向跟波的传播方向平行的波叫纵波,例如声波。振动方向对于传播方向的不对称性叫做偏振(polarization),只有横波才能产生偏振现象,这也是横波区别于其他纵波的一个最明显的标志。光波是电磁波,因此,光波的传播方向就是电磁波的传播方向。光波中的电振动矢量(E)和磁振动矢量(H)都与传播速度(ν)垂直,因此光波是横波,它具有偏振性。具有偏振性的光则称为偏振光。
3)反射式偏振片:选择性的反射与透射偏振光。反射式偏振片(ReflectingPolarizer)是偏光片的一种,通常由多层功能性光学薄膜在透镜表面上贴合而成。通过调整光学薄膜的种类与贴合顺序,反射式偏振片能够选择性的反射与透射偏振光,实现一种偏振态被透射而另一种偏振态被反射的功能。在Pancake光学方案中,通常设置成反射p偏振光,透射s偏振光。反射式偏振片中的光学薄膜通常采用金属色线栅,例如铝质金属线栅,或采用具有双折射功能的多层聚合物,后者相对于前者而言具有如下优势:a)在较宽的入射角范围内,多层聚合物薄膜具有较高的偏振反射率,以及较低的色彩推移;b)由于具有高消光和高透射效率,多层聚合物偏振器的可见光谱偏振对比度可以非常高;c)由于聚合物树脂具有粘弹性,因此多层聚合物薄膜可以形成各种复杂的曲面,包括非球面甚至自由曲面,而非球面的形态可以显著提高Pancake光学透镜的分辨率。
光路系统的设置与具体工作原理
在设计以及评估不同结构的Pancake光学系统时,需考量大量的设计指标并做出权衡,包括成像质量、视场角(FOV)、眼动范围(EyeBox)、景深、出瞳距离(EyeRelief)、佩戴舒适性、工艺难度、成本、是否解决辐辏调节冲突(VAC)以及是否配备眼动追踪功能等。在此基础上,Pancake光学系统可分为一片式、两片式以及多片式,其中两片式结构最为常见。光学膜可以贴在不同的透镜表面上,也可以互相叠加贴合。根据光路系统设置的原理,三类光学膜贴合的位置次序必须保持固定不变,从显示屏向人眼方向依次为半透半反膜、1/4相位延迟膜和反射式偏振膜,否则该光学系统不能正常工作。
偏振光在Pancake光学系统中的具体传播路径如下:
①显示屏发出右旋圆偏振光。Pancake光学模组的入射光必须为圆偏振光,若采用的显示屏为LCD,则其发出的光为线偏振光,需在显示屏上增加一个1/4相位延迟片,将线偏振光转变为圆偏振光;若采用的显示屏为OLED,自发光原理使其发出的光为非偏振光,需在屏幕上先增加一个线偏光片(LP)将其转化为线偏振光,再增加一片1/4相位延迟片将其转化为圆偏振光。
②右旋圆偏振光透过半透半反镜后,偏振态不发生变化,但光效损失50%。
③右旋圆偏振光以45°角第一次通过1/4相位延迟片后,变为振动方向平行于纸面的p线偏振光。这是因为在通过1/4相位延迟片之前,可以沿着o光和e光的方向(即1/4相位延迟片的快轴和慢轴方向),将右旋圆偏振光矢量分解成两束频率相同、振动方向互相垂直、且相位差为-π/2的线偏振光。在通过1/4相位延迟片时,由于双折射现象,在o光和e光的方向上进一步引入+π/2的相位差,此时,两束线偏振光的相位差为0。最后将振幅相同的o光和e光叠加为振动方向平行于纸面的p线偏振光。
④p线偏振光到达反射式偏振膜后发生反射,偏振态保持不变。
⑤p线偏振光以45°角第二次通过1/4相位延迟片后,变回右旋圆偏振光。
⑥右旋圆偏振光到达半透半反镜后发生二次反射,变成左旋圆偏振光,同时光效再次损失50%。这是因为反射光相对于入射面而言有-π的相位突变,因此会改变旋转方向,从右旋变为左旋。
⑦左旋圆偏振光以45°角第三次通过1/4相位延迟片后,变为振动方向垂直于纸面的s线偏振光。
⑧s线偏振光到达反射式偏振膜后发生透射,最终进入到人眼当中。
技术壁垒:光学膜材料
光学膜材料的性能与贴合工艺是Pancake光学方案的技术壁垒,尤其是1/4相位延迟片和反射式偏振膜,其中反射式偏振膜价值量最高,其膜材成本高且市场被海外光学膜巨头垄断,是制约当前VR光学发展的主要因素。1)Pancake折叠光路系统的光学膜要求。由于Pancake的核心设计思路是通过反射与偏振进行光路折叠,最终的光学效果十分依赖偏振光的偏振态,因此需要更低的双折射以及更稳定的偏振态传输。1/4相位延时片和反射偏振膜的质量是成像质量的关键因素,目前全球范围内只有3M、旭化成等少数企业的膜材性能能够达到Pancake设计要求,因而具有较大的议价权,一组透镜的贴膜材料的成本达到70-100元。
2)在Pancake光学模组加工流程中,贴膜环节壁垒最高。根据光路系统设置,可分为曲面贴膜和平面贴膜两种方式。虽然平面贴膜技术难度较低,但会牺牲部分光学性能和成像质量。曲面贴膜工艺通过事先制备好的平面膜层,通过热弯成型技术使其成为特定的二维曲面,贴于透镜表面,有别于传统的镀膜技术。虽然曲面贴膜能够带来更大的视场角和更优的成像质量,但曲面贴膜工艺难度较大,各项角度精度要求极高,容易边缘褶皱和翘起,因此良率低。目前膜供应商3M等开始推出贴膜交付方案,三利谱也将曲面贴合工艺列为公司的后续重点研发方向之一。
优势:轻薄化、成像质量高、可调节屈光度
Pancake光学方案轻薄化优势显著,更适合拓展C端市场。Pancake光学方案最大的优势在于利用多次折返的方式扩大光路总长,有效压缩了显示屏与光学透镜之间的距离,进而大幅降低了VR显的重量和体积,显著提升了产品佩戴舒适度和使用时长。对比市面上的主流VR头显产品,OculusQuest2和HTCVivePro2均采用菲涅尔透镜方案,头显的重量分别为503g和785g,厚度分别为80.1mm和73.5mm;而ArparaVR和HuaweiVRGlass采用Pancake光学方案,头显的重量分别为200g和166g,厚度分别为30.0mm和26.6mm,产品形态更加趋于日常佩戴的眼镜。搭载Pancake方案的VR头显设备重量和厚度显著低于搭载菲涅尔透镜方案的产品。
在Pancake光学方案中,通过透镜组合,可以提高边缘成像质量,降低图像畸变,提高图像对比度、清晰度以及细腻度。Pancake光学的解析能力相对于菲涅尔光学提升了50%,同时克服了菲涅尔光学固有的视野边缘模糊与畸变现象,有效减少边缘眩光,带来了视野全域范围的清晰体验。值得一提的是,YVR2光学镜组的透过率达到了19%,在高透光性能下的清晰度达到了全新水平。目前业内平均水平约为13-16%。
Pancake光学方案支持屈光度调节。目前普遍Pancake模组的屈光度调节范围在0-700°之间,对于绝大部分近视的用户而言,无需佩戴眼镜即可使用。而对于单透镜的菲涅尔和非球面方案,如果不增加透镜则无法实现屈光度调节。目前实现屈光度调节有内调焦和外调焦两种方式:
1)内调焦方式。将其中一组镜片作为移动组,移动组镜片通过朝向某一方向移动实现屈光度的调节。这种方式的优势在于镜头的总长不会发生改变;缺陷在于移动镜片会导致整个光路的系统参数发生变化,如焦距等。此外,如果用户双眼视力差异较大,那么左右眼内调焦的一致性将不一致,进而引起双目合像等问题。
2)外调焦方式。通过显示屏朝向某一方向的移动来实现屈光度的调节。这种方式的优势在于系统参数没有改变,因此左右眼的焦距是一致的,左右眼图像的一致性会更好,更容易实现合像;其缺陷在于由于移动屏幕,整个模组的总长会因此发生变化。
虽然Pancake光学方案支持屈光度调节,但仍然需要借助可变焦设计,结合液晶器件,实现动态全局调控,根据显示屏的内容和眼睛观看的位置,实时改变焦平面,让二维屏幕产生三维景深信息,才能改善由辐辏调节冲突(VAC)带来的眩晕问题。
Pancake技术难点:光损高、视场角小、存在鬼影、成本高
光损高,理论上最高光效仅为25%,因此对显示屏幕亮度要求高。多次折返的光路存在效率损失的问题,光线两次经过半透半反膜,所以其理论最高光效仅有25%,再加上反射偏振膜的损失,总体光利用率只有10-20%,因此需要搭配高亮度屏幕,例如MicroOLED/MicroLED,以改善折叠光路方案的效果。相比之下,菲涅尔透镜的光学效率可高达80-90%。大视场角与设备轻量化难以兼得。据Oculus首席科学家表述,菲涅尔透镜的视场角(FOV)理论上限为140°,而Pancake的FOV有望实现220°。然而,Pancake光学方案采用了较小的显示屏幕,较小的屏幕需要更长的光路来扩大视场角,这与折叠光路压缩光学模组总长这一设计理念相悖。因此,在Pancake光学方案中,大视场角与设备轻薄化无法兼得,需要在两者之间做出权衡。当前量产的Pancake光学方案的FOV在60-90°之间,距理论上限220°仍有较大差距,且小于市场上菲涅尔光学方案的视场角。
易出现“鬼影”,降低呈像质量,影响用户体验。在成像光学系统中,往往存在一些非理想因素带来的杂散光,这些杂散光通常是由透镜界面多次反射、透镜缺陷散射、物理结构散射等造成的。实际应用场景中,这些杂散光往往会在画面中的某个位置形成像,被称为“鬼影”(GhostImage)。Pancake光学方案的中诸多鬼影,在画面中的表现不一而足,有的能清晰成像,有的则以光斑的形态存在,这严重影响了用户对于图像对比度的感知。
造成鬼影的因素有很多,其中最易造成的因素是双折射。由于双折射现象与透镜的材料有关,塑料材料通常具有较明显的双折射,因此可以通过增加透镜或改变透镜的形状、改善透镜材料,优化光路来降低其双折射现象来抑制鬼影现象。
Pancake光学方案成本高。主要因素有四个方面:1)对光学膜核心材料的性能与质量要求高,尤其是1/4相位延迟膜和反射式偏振膜,全球范围内只有3M、旭化成等少数企业的产品能够达到Pancake设计要求;2)由于产品由多种膜材贴合而成,对各项角度精度和平滑度要求极高,目前依赖人工贴膜,效率较低;3)由于鬼影的存在,需要通过增加透镜或改变透镜的材料和形状的方式来改善,相应的材料成本也会增加;4)Pancake光学方案的光损高,需要搭配更高亮度的显示屏幕使用,也使成本增加。目前,一组透镜(单目)的光学膜成本达到700-100元,单个Pancake模组价格约为150-200元。
屏幕:多种方案共存,解决眩晕是核心诉求
清晰度与刷新率提高改善眩晕,但对芯片算力和功耗提出要求VR显示屏幕的核心要求就是解决眩晕,这是用户愿意长时间使用VR的首要前提。围绕“不眩晕”这一核心诉求,各大屏幕厂商从多维度进行提升,主要方法包括提升视场角、像素密度、头动和视野延迟等。1)FOV(FieldofView,视场角):视场角定义为双眼看到图像的最大角度范围。人类平均而言,水平双眼视场角是200度,其中有120度的重叠,这部分重叠对于构建立体视觉和估计深度尤为重要,垂直的视场角约为100~130度。
2)PPD(PixelPerDegree):像素密度通常以每英寸像素(PPI)为单位测量,即显示器上每英寸的像素数。但PPI并不能单独用作清晰度的标准,因为眼睛和显示器之间的距离也很重要。当眼球离屏幕足够远时,高像素密度的设备是冗余的,增加的像素密度并不会被察觉。因此,不同的设备,需要匹配不同的PPI来达到相同的感知清晰度。
相比之下,每度像素数(PPD)则考虑到了眼球与屏幕的距离,同时也更适用于VR球形显示的实际情况,因此被更多的使用在VR头显的清晰度讨论中。PPD定义为1°视场角中所包含的像素数量。当PPD大于60时,我们通常就感觉不到像素感。每个格子代表水平视场角上的1°和垂直视场角上的1°的小方格。
由于VR显示屏离人眼足够近,当分辨率低时,人眼会直接看到显示屏的像素点,以及点间的间距,就好比在纱窗之后看东西一样,即纱窗效应。且当像素密度不够时,VR中有图像边缘出现很强的锯齿(aliasing),从而产生了粗糙边缘。叠加VR实时渲染,当用户头转动时,原本应该静止的细线,或者某些物体的边缘线,像在闪烁或者舞动一般,也叫高对比度边缘出现分离式闪烁。解决纱窗效应主要就是提高分辨率。
目前,“视网膜效果”是一个没有清晰定义的概念,根据史蒂夫乔布斯发布iPhone4时的概念,它是指像素密度为300PPI的设备,放在10~12英寸距离的效果,1单位PPD即12英寸距离下300ppi的像素密度。根据PPD=2dxtan0.5°xPPI,d为眼睛到屏幕的距离也就是12英寸,则视网膜效果大约需要60PPD以上。
由于VRHMD拥有远高于传统终端的视场角,决定了要达到同样等级的画质体验,相同的PPD要求VR视频具有更高的单眼分辨率和全视角分辨率。用户在虚拟环境中的视野可以认为是一个空间球,左右横向全视角展开是360度,上下纵向展开180度。用户在使用终端时,单眼实际看到的视觉信息只是全部球面数据的一部分,这部分面积由终端提供的FOV决定。如FOV为90度,则单眼可视信息仅为球面信息的1/8。而真正决定VR360视频画质体验的是单眼分辨率(FOV分辨率),可换算为在FOV区域的PPD。
全视角的4K分辨率远不能达到满意的视频质量,加大分辨率到8K及以上是必须的。以FOV=90为例,全视角分辨率达到8K时,单眼分辨率为1920*1920,对应PPD=22;全视角分辨率升级12K时,单眼分辨率为2880*2880,PPD也仅提高到32,屏幕分辨率达到16K才能真正对应平面4K显示效果。我们认为3-5年内,各家厂商将迭代至8K分辨率,10年维度有望达到16K。
除了屏幕本身的像素密度提升对于技术提出挑战,还有像素提升带来的带宽、传输问题。根据华为的测算,普通宽带上网,一般峰值在20M~30M就可以获得相当好的上网体验,但对于4K/8K视频,要获得良好体验,必须有持续的30M~100M带宽保证,而对于VR视频,要获得极佳使用体验,需要超Gbit的入户带宽。如果一个用户家里同时存在几路VR业务,相比于大屏4K/8K视频的家庭式观看,VR业务消耗的带宽还可能继续翻倍。虽然未来技术的发展,压缩算法的改进,单路VR业务需要的传输带宽还有进一步的降低空间,但入户带宽超Gbit,甚至10Gbit是大概率事件。
3)头动和视野延迟(Motion-to-PhotonsLatency,MTP):业界的主流观点认为,MTP延迟不能超过20ms,否则会引起眩晕感。目前领先的VR终端厂商如Oculus、HTCVive已经通过提升端到端软硬件性能,从传感追踪元件、显示屏技术、GPU入手,已经将MTP本地化削减至了20ms。
4)其他显示屏参数:对比度:是屏幕最白和最黑亮度的比值,决定屏幕呈现的色彩饱和程度;亮度:亮度高有利于提升对比度,丰富图像细节,电视屏亮度多在200-500nit,日光下应达到700nit。但VR的入眼亮度由屏幕亮度和光学效率决定,因此,若采用光效低的光学方案,应搭配高亮度的显示屏;功耗:低功耗的显示屏,可减少散热,延长续航时间,提升舒适性需求。除以上重要指标外,显示屏的色域、寿命、重量和厚度等也可做辅助参考。
Fast-LCD仍为VR消费级主流,专业级产品看好MicroOLED
LCD、MiniLED、MicroLED、OLED、MicroOLED技术梳理
LCD(liquid-crystaldisplay):目前市场大都使用TFT-LCD技术(薄膜电晶体液晶显示器),由两片玻璃基板中间夹着一层液晶,上层玻璃基板是彩色滤光片、下层玻璃则镶嵌着电晶体,当电流通过电晶体所产生的电场变化,使得液晶分子原本的旋转排列发生扭转,进而改变光线通过的旋转幅度,并以不同比例照射在彩色滤光片上,进而产生不同的颜色。
OLED(OrganicLight-EmittingDiode):OLED与LCD最大的差异在于,LCD需要LED背板和滤光片,而OLED能够自体发光。基本结构是在铟锡氧化物(ITO)玻璃上制作一层有机材料发光层,并在发光层上再覆盖一层低功函数的金属电极。透过外界电压的驱动下,正极电洞与阴极电子便会在发光层中结合,产生能量并发出光,因材料特性不同而产生R、G和B三原色,来构成基本色彩。
MicroLED(微发光二极体):将LED背光源微缩化、矩阵化,单独驱动无机自发光(自发光)、让产品寿命更长。因为MicroLED的晶粒到了肉眼难以分辨的等级,可以直接将R、G、B三原色的晶粒拼成一个像素点,不再需要滤光片和液晶层。但目前MicroLED的大规模量产技术还有较多瓶颈,从前期的磊晶技术瓶颈、巨量转移(MassTransfer)良率、封装测试问题,到后续的检测、维修都是很大的挑战,影响MicroLED能否量产。MicroOLED:是通过将红、绿、蓝(RGB)有机发光二极管像素沉积在由硅制成的半导体晶片上制成的,它们比玻璃基板更薄,可以容纳更多像素,尺寸只有几十微米。MicroOLED设计之初就是用于通过镜头将其放大或安装在投影仪上,目前的取景器大多使用MicroOLED,显色性和图像响应速度堪称完美。MicroOLED优点是小而轻、具有高分辨率、高像素密度。但由于制作工艺限制,不可能进行大尺寸生产,因此对于FOV有限制。
LCD向Fast-LCD发展,解决响应速度慢的缺点。改良后的Fast-LCD技术使用新的液晶材料(铁电液晶材料)与超速驱动技术有效提升刷新率至75~90Hz,响应速度得到了明显提高,大大缩短了与OLED之间的距离,且具有较高的量产稳定性及良率。但色彩显示不如OLED屏幕饱满鲜艳,且容易出现漏光现象,此外,如何处理好功耗和分辨率二者的平衡,都是Fast-LCD需要面对的挑战。目前的主流配置是Fast-LCD叠加MiniLED背光技术,不仅可以解决漏光问题,还进一步提了显示性能。
MiniLED背光具备独特优势,是LCD显示技术路径的重要创新方向。MiniLED目前有背光、直显两种发展路径,直显由于对成本、良率、一致性有更高的要求,目前仍处于小规模量产阶段,而MiniLED背光技术已经处于商业化落地的成熟时期。相比传统LCD,MiniLED产品具有超高亮度、使用寿命长、高对比度、HDR宽动态显示范围、节能等诸多优点;相比OLED,高端MiniLED显示画面媲美OLED,且没有OLED寿命、残影等隐患,并且具有成本低、应用广的特点。
OLED向硅基OLED发展,解决分辨率较低的问题。硅基OLED创新性结合半导体与OLED,显示器件采用单晶硅芯片基底。MicroOLED作为其中的一种,是在两层电极之间使用能够发光的萤光有机材料,电流通过后会发出单色光,再透过滤色器生成所需的颜色。除了带有OLED自发光优势,面板厚度和体积也比以前更薄、更小、耗能更低,再加上响应时间短、发光效率高等特性,更容易实现高像素密度。
因为硅基OLED都是在6英寸、8英寸的晶圆上小面积蒸镀,大大减小了生产OLED时要克服的蒸镀均匀性难题。硅基OLED无论是亮度,还是像素密度表现都有明显提升,像素密度可以达到在3000~4000PPI。另外,由于综合良率偏低,驱动芯片技术不成熟等问题,这一技术的成本较高,行业普遍良率最高仅有50%左右。
追踪定位:IMU+摄像头方案成熟,算法是核心技术
肢体追踪:红外光学定位配合MEMSIMU,Inside-Out成主流位置跟踪及动作捕捉技术可以让设备估算其相对于周围环境的位置。它使用硬件和软件的组合来实现其绝对位置的检测,目前算法的开发是定位能力提升的主要动力。位置跟踪是虚拟现实技术(VR)的基本技术,可以用六个自由度(6DOF)跟踪移动确定位置。同时,通过定位不同特征点的位置,经过分析可以得出相应的动作,实现动作捕捉。
6DoF(DegreeofFreedom)指,围绕X、Y、Z三个轴可平移(3DoF)和旋转(3DoF)。无论有多复杂,刚体的任何可能性运动都可以通过6自由度的组合进行表达。定位追踪是硬件与软件的组合,能够监测物体的绝对位置。由于虚拟现实是模拟、修改现实,所以我们需要准确地追踪对象(如头部或手部)是如何在现实世界中移动,这样系统才能在VR世界中实现精确的映射。
从硬件技术的角度分类,可以分为:
1)声学追踪:测量声学信号在发射器和接收器之间传播所花费的时间的方式被称为声学跟踪。一般来说,有几个发射器放置在跟踪区域,而各种接收器放置在跟踪目标上。接收机和发射机之间的距离是根据声音信号到达接收机的时间来计算的。其缺点是时延较长、刷新慢、易受噪音干扰。
2)惯性与磁性追踪:IMU(InertialMeasurementUnit,惯性测量单元)是一种通过传感器组合来测量和报告速度、方向和重力的电子设备。IMU通常包括一个3轴加速度计、一个3轴陀螺仪,较高级的会再加一个3轴磁力计。加速度计可以测量物体在其坐标系下的三轴加速度,陀螺仪的三轴角速度,通过积分运算,可以解算出物体相对的定位信息。受制于成本高昂,IMU过去主要应用于飞机火箭仪表等军用设备,随着价格更加亲民的MEMS加速度计和陀螺仪出现,IMU开始广泛经应用于消费级电子设备。但IMU只能准确地测量和报告方向值(旋转),无法处理平移,随着时间推移,如果没有外部校准,IMU很快会出现漂移的情况,需要结合算法进行校准。
3)光学追踪:对于光学跟踪,有多种方法可用。它们之间的共同点就是使用光学摄像头来收集位置信息。具体又可以分为跟踪标记、深度地图跟踪等。
从硬件排布的角度上,技术方案又可以分为Outside-in和Inside-out:
1)Outside-in就是由外向内追踪。这种追踪方法的特点就是追踪平移移动的传感器在外部。放置在静止位置并朝向被跟踪对象的摄像机或其他传感器,该物体在摄像机相交的视觉范围定义的指定区域内自由移动。
Outside-In的代表产品就是当年VR元年的三大PCVR设备:OculusRiftCV1星座系统、Vive和HTC的Lighthouse基站系统、PSVR的单摄像头光球系统。其中PSVR的追踪是单摄像头,搭配可见光光球追踪,效果非常差。另外两种系统至今依然比Inside-out方案精度更高,并且因为是在这个摄像头基站的范围内是无死角的360度追踪,在某些游戏和企业应用中,还是这两者占优。
Outside-in具有更高的精度,例如HTC的灯塔系统。每个Lighthouse基站都包含两个激光器。一个激光器投射出一条水平光线,从下到上扫;另一个激光器投射一条垂直的光线,从左到右扫。两个激光器都以3,600rpm或每秒60转的速度围绕各自的轴旋转。由于在任何时候都只能有一个激光扫过跟踪体积,因此一个基站内的两个激光和两个链接基站(A和B)的四个激光是交错的:第一个基站A的垂直激光从左到右扫过→A的水平激光从下到上扫过→A的激光关闭,B的垂直激光从左向右扫过→B的水平激光从下到上扫描→重复。每个过程间隔为半圈或8.333毫秒,但实际上通过清除冗余数据、捆绑数据后,作为IMU的增量进行计算,实际反馈间隔,最坏延迟约4毫秒。
2)Inside-out就是从内向外追踪。在由内而外的位置跟踪中,摄像头或传感器位于被跟踪的设备上,定位的范围几乎是无限大的。随着VR一体机的兴盛,Inside-out是现在的主流方向。但因为摄像头在头上,背后和其他地方有死角,这对厂家的SLAM算法(同步定位与建图,SimultaneousLocalizationandMapping)提出了很高要求。Inside-out方案中,手柄追踪方案经过几代更迭,目前红外光追踪方案较为成熟,也是近两年VR新款产品主流方案。
PicoNeo1采用的超声波解决方案。优点是基本不用占用移动芯片的性能,功耗相对摄像头定位非常低。但超声波信号容易受距离约束,距离越大信号衰减越快,容易导致控制器6DoF位姿信息精度误差变大,而且超声波虽然可以不受外界环境光干扰,但也会受超声波相关的干扰(比如风吹),或是在接近一些物体时,比如墙面,超声波的回声干扰会影响整个定位的精度。
PicoNeo2采用的电磁解决方案。优点是没有FOV限制,可以进行360°的追踪定位交互,但电磁波没可见光那么精准,原地不动的时候,会产生轻微抖动,虽幅度小,但还是会影响精准度。如果想达到高精度,电磁传感器功耗会较大,容易造成控制器发热、手部出汗,PICONEO2在手柄内置了一颗巨大的电磁线圈,通过产生不同方向的电磁信号,让头盔中的接收单元接收并运算,从而定位手柄。另外,该方案成本较高。这项技术是PICO采购自NorthernDigital后,并加以改进。专利授权费和特殊采购的接收单元,还有线圈和18650锂电池,让每台NEO2的成本较高。
PicoNeo3采用了基于光学的控制器定位追踪解决方案。不需要额外或者特殊传感器,可直接用头戴追踪传感器解决控制器的6DoF位姿计算,使得产品的成本更低,也可以降低控制器的功耗。通过在控制器上按照一定规则布置LED灯,复用头戴端内置的四路追踪相机,使其控制器端的LED发光光斑的闪烁频率和头戴Camera拍摄频率完全同步。结合高频率的IMU和低频率输出的Camera数据,再结合实时高精度获取控制器的MTP(Motion-to-Picture),通过高精度运动预测模型,对控制器的追踪运动延时做了很大程度的补偿和优化。
PICO4沿用了基于光学定位+IMU融合的追踪方式。头显4个边角各放置了一颗VGA摄像头。摄像头采用豪威OVM7251传感器,基于3微米OmniPixelⓇ3-GS全局快门架构。1/7.5英寸光学格式,提供小尺寸、低功耗、高效率的120fps、640x480VGA分辨率相机模块,工作模式下,模块的全局快门可实现快速图像捕捉。传感器采用TDKICM-42688包含高精度3轴电子陀螺传感器和3轴加速度计,配合电子罗盘AKMAK09918C的3轴磁场感应数据,形成HDMIMU系统。
手柄采用全新的星环弧柱的设计,使用了16颗红外LED,通过FPC排布在手柄环上,此外,手柄头部外圈还有4颗LED,形成的类拓扑结构保证了无死角追踪,特别是在两个手柄重叠的时候也能保证不被遮挡。头显上的6DoF摄像头通过拍摄红外灯带的位置和姿态,来定位和追踪手柄。传感器方面,手柄搭载TDKIMU芯片ICM-42688-P,包含高精度3轴电子陀螺传感器和3轴加速器,融合CV追踪算法实现对手柄更准确的定位和追踪机器的运动和姿态。
手势识别:传感器、RGB摄像头、3D摄像头
如果要更加精确到手部的详细动作,有依靠传感器的手套式方案,也有依靠计算机视觉的裸手识别方案。例如苹果公司申请的“基于IMU的手套”专利,摘要显示该手套包括多个IMU,其中可包括一个或多个运动传感器,可测量对应指节的惯性运动。在一些示例中,该VR手套除了包括磁力仪以确定地磁场的方向,还可包括多个电极,用于实现电容式触摸或指尖之间的接触感测。
Quest则是典型的计算机视觉方案,采用了黑白第一人称摄像头追踪手部节点的VR方案,不含深度测量传感器。当时,市面上常见的是单目RGB摄像头和神经网络算法的手势识别方案,但单目方案难以直接识别3D手势,需要搭配关键点回归和实时姿态算法,时间上难以达到连贯和低抖动等。因此,FRL提出了一种基于4颗黑白摄像头的手势追踪方案。该方案无须深度摄像头,对算力和功耗的要求更小,在光线暗和双手形状等变量影响下依然能稳定运行,延时和抖动的情况足够少。4颗同步的VGA广角摄像头,每颗摄像头的FOV可达150°(宽)x120°(高)x175°(对角线)。广角摄像头采用等距投影模型,光线的参数由与摄像头主轴之间的角度来决定,因此也更适合预测手部关节点的距离而不是深度。
3D摄像头,即包含深度信息传感器的摄像头模组,能有效提升定位精度,优化VR头显使用体验感。3D摄像头有三种主流方案:结构光、TOF(飞行发)以及双目立体成像方案。三种方案工作原理均为红外激光发射器发射出近红外光,经过反射后,红外信息被红外光CMOS图像处理器接收,并将信息汇总至图像处理芯片,得到三维数据,实现空间定位。但三者不同之处在于发射近红外光取得三维数据的方式,结构光发射的是散斑,TOF是发射面光源,而双目立体成像则是通过双目匹配,进行视差算法。
TOF方案响应速度快,深度信息精度高,识别距离范围大,不易受环境光线干扰,因此是移动端3D视觉比较可行的方案;结构光方案由于技术较为成熟,工业化产品较多,也被部分厂商所采用;双目立体成像是比较新的技术,参与的厂商较少,更适合室外强光条件和高分辨率应用,常见于机器人视觉、自动驾驶等方面。
其他传感器:眼动追踪、面部识别将成标配
1)眼动追踪:动态渲染技术的基石
眼球追踪是AR/VR头显的一项关键功能,它可以丰富用户之间的交互,同时也是动态注视点渲染技术的基础,提升AR/VR视觉观感。由于眼睛收集的视觉信息质量在视野的一小块区域(称为中心凹区域)内是最高质量的,该区域以外的视力会迅速下降,因此仅对用户注视的中心区域进行高精度渲染,而对其他区域进行低分辨率渲染,可降低GPU着色负载的同时保持高帧率,以此更好配置有限的算力资源。同时,结合注视点和手势识别,用户可以与虚拟环境更精准的互动,如实现抓取、隔空打字等功能。
注视点渲染又分为固定和动态两种类型。采用固定注视点渲染,XR设备会预设显示器中心部分为高质渲染区域。因此用户的注视点需始终处于该区域位置,靠头部转动转移视线,如2018年OculusGo。而动态注视点渲染则可在眼球转动时捕捉注视点以实现更精准的实时渲染。Tobii曾在不同设备和环境下做过一系列基准测试,测试数据表明,动态注视点渲染比固定注视点渲染能降低两倍的GPU着色负载,能更有效地维持高帧率和优化系统资源。在PicoNeo3ProEye的硬件环境下,Tobii的动态注视点技术能将帧率提高78%,一体机能耗降低10%。
眼动追踪技术的基本原理并不算复杂,实现方式也不只一种。目前最常见的是以Tobii为代表的技术提供商所采用的瞳孔角膜反射法(PCCR)。该方案主要包括三个模块:眼动摄像机、光源、模型及算法。光源发射红外光在眼角膜反射形成闪烁点,眼动摄像机捕捉眼睛的高分辨率图像,再经由算法解析,实时定位闪烁点与瞳孔的位置,最后借助模型估算出用户的视线方向和落点。
目前,市面大多数眼球追踪系统都采用PCCR。例如最新的OculusPro,其眼部追踪采用角膜瞳孔法,在pancake模组的透镜外围分布了9个红外LED和1个摄像头。
2)面部追踪:光+摄像头方案为主
OculusPro面部追踪模组由左右脸和额头三个模组构成,底框为红外透过材料,面部追踪模组共有4个LED和1个摄像头,额头追踪模组3个红外LED和1个摄像头。
3)腿部追踪:硬件成本高,AI或成主流方案
Meta在2022年9月,宣布成功以头显和手柄控制器的位置和方向数据作为输入,其他数据全靠AI预测,使得元宇宙中的虚拟人物有了腿。他们设置了4000个身高不同的仿真人形机器人,每个机器人具有33个自由度。随后,将这些机器人在英伟达的IsaacGym(一个专门用于强化学习研究的机器人物理模拟环境)中同时进行训练,2天后,这只框架就能基于这个强化学习策略,根据头显和手柄数据直接预测用户全身动作了。
芯片:赋能VR硬件性能,专用度不断提升
芯片为赋能VR硬件性能的核心部件,从而成为支撑用户体验的关键。VR头显和手柄都有芯片组支撑其功能,其总体架构和芯片类型和智能手机等其他智能终端类似,其中数字芯片涉及到主控SoC、存储、音频编解码芯片、微控制器MCU和连接芯片等;模拟芯片涉及到电源管理PMIC、LED驱动芯片、射频FEM、马达驱动芯片、音频功放芯片等;传感器芯片涉及到CMOS图像传感器、陀螺仪等。
芯片成本占VR整机成本超30%。根据WellsennXR拆解报告预测,PICO4芯片成本约为112.7美元,占据硬件综合成本31%,QuestProVR芯片成本约为228.1美元,占据硬件综合成本37%。其中QuestPro芯片成本增加主要来源于交互手柄使用一颗11nm骁龙662手机SoC作为主芯片(PICO4及其他主流产品为蓝牙MCU)和较大内存,以及摄像头增加提升了交互性能。
SoC:芯片平台实现专用化,未来多方有望并起与高通争雄
VR主芯片主要任务利用运行操作系统并掌控整个硬件系统。从架构上来说,VR芯片的架构基本和其他智能设备的SoC类似,主要集成系统级芯片控制逻辑模块、微处理器/微控制器CPU内核模块、数字信号处理器DSP模块、嵌入的存储器模块、和外部进行通讯的接口模块、含有ADC/DAC的模拟前端模块、电源提供和功耗管理模块。
提升GPU效能比成为VR主芯片升级重心。GPU是SoC中负责渲染和显示的核心IP,决定了VR设备的3D效果和显示分辨率。一方面,随着VR游戏市场的扩大和生态的形成,游戏图像质量和超高分辨率将会成为主机之间竞争的核心指标,推动对于VR芯片中GPU渲染能力的需求,另一方面,由于目前主流的VR设备都是依靠电池来供电,因此能效比将决定VR设备的续航时间,同时也需要保证VR设备散热没有问题。
NPU算力大幅提升支持交互体验升级。与手机中不同,VR设备中的众多交互都需要人工智能的介入,例如设备和用户的定位和追踪,并且把这个信息融合到虚拟环境中,需要使用人工智能中的SLAM技术才能高质量地实现。另外,目前VR设备中,交互越来越多地使用手部追踪和眼部追踪等先进技术来实现自然的交互,而这些追踪都需要使用人工智能模型,而且随着追踪精度的增加,模型需要的算力也在上升。人工智能算法结合眼部追踪技术判断眼睛聚焦位置,对聚焦位置进行高质量渲染,对未关注到位置进行低质量渲染,解决GPU渲染能力瓶颈。
手机SoC优势助高通成为VR主芯片市场霸主。2015年,HTC发布的HTCVive使用STM32F072R8MCU和AIT8328ISP搭配作为中控芯片方案;2016年起,高通智能手机SoC骁龙821、骁龙835、骁龙845成为当年主流VR产品芯片方案,VR主芯片进入手机SoC时代,同期如三星Exynos8895、联发科HelioX30等智能手机SoC也获得少量VR产品搭载。
XR芯片专业化夯实高通优势。2019年,随着高通发布骁龙XR1平台,VR设备正式踏入XR专用芯片平台时代,相较于手机SoC,初代XR平台减少了基带,使成本显著下降,而其他关键模块如CPU、GPU、DSP、ISP等和手机芯片别无二致。但由于高通除了芯片以外,同时发布了包括XR软件服务层、机器学习、XRSDK等一系列软件支持,加之其智能手机业务积累的软硬件生态优势,骁龙XR1一举奠定高通在XR领域绝对龙头地位。
索尼PSVR2将首发联发科VR芯片,联发科入局或激活行业竞争。11月联发科正式宣布于2023年2月22日上市的索尼PSVR2将搭载其首款VR芯片,目前尚未透露该芯片设计细节,我们预测这颗芯片有望基于公司ARM架构手机SoC针对VR应用优化而来。联发科自2004年从DVD芯片切入功能机市场推出Turnkey模式占住山寨机市场,到2011年进入Andriod智能手机市场,抓住国产智能手机爆发机遇。目前联发科既是电视芯片市场霸主,并在手机芯片领域与高通形成两强局面,根据Countpoint数据,2Q22联发科以39%全球市场份额领先高通。联发科携视频娱乐、智能手机芯片技术能力,在首颗VR专用芯片即获索尼使用,有望未来在XR领域继续和高通角逐。
构建软硬一体生态,系统厂商或加强自研芯片开发。Meta在2018年开始就成立了专门的团队去研发XR芯片,当时Meta挖来了谷歌芯片产品负责人沙赫里阿尔·瑞比,并任命其为芯片自研项目负责人,专注于构建支持增强现实和虚拟现实的芯片。虽然Meta与高通今年签署长期合作协议,我们认为Meta仍然会推进自研XR芯片,主因:1)增强产业链话语权;2)打造差异化产品;3)构建软硬件一体生态;4)提升品牌形象。除此之外,未来潜在强有力竞争者苹果入局XR行业,其设备必然搭载自研A系列或M系列主芯片以及完善软硬件生态。
国内芯片厂商成长需与主流终端品牌加强合作。目前国内拥有XR主芯片产品的芯片厂商主要有来自智能手机芯片领域的海思和展锐以及AIoT芯片设计公司晶晨、瑞芯微和全志科技等。其中全志和瑞芯微拥有专用VR芯片产品布局,获得少数机型搭载,除此之外晶晨S和A系列芯片有在AR产品量产出货。目前国内厂商在XR领域投入相对有限,未来成长需与市场主流设备公司加强合作。
CMOS图像传感器:VR交互需求增长推动重要性提升
CMOS图像传感器(CIS,CMOSImageSensor)主要采用感光单元阵列和辅助控制电路获取对象景物的亮度和色彩信号,并通过复杂的信号处理和图像处理技术输出数字化的图像信息。CMOS图像传感器中的感光单元一般采用感光二极管(Photodiode)实现光电信号的转换。感光二极管在接受光线照射之后能够产生电流信号,电流的强度与光照的强度成正比例关系。每个感光单元对应图像传感器中的一个像元,像元也被称为像素单元(Pixel)。CIS每一个感光元件都可以直接集成放大电路和模数转换电路,当感光二极管接受光照、产生模拟的电信号之后,电信号首先被该感光元件中的放大器放大,然后直接转换成对应的数字信号,并进行片上图像处理。
摄像头模组成像能力主要由CMOS图像传感器关键技术参数决定。CMOS图像传感器的像素数目、像素尺寸、光学尺寸、帧率、信噪比、动态范围、感光度、量子效率等关键参数直接决定了摄像头成像的分辨率、清晰度、流畅度、暗光下性能、噪点控制能力的高低。由于应用和使用场景不同,加之成本上的考量,针对不同下游应用的CIS会进行参数上的取舍,如智能手机为满足分辨率、清晰度、美观度和全场景适应能力,对CMOS图像传感器的超高像素的要求非常高。
全局曝光为VR追踪定位主要CMOS图像传感器主要核心快门技术。主流CIS快门技术为卷帘快门和全局快门,其中卷帘快门的设计是为了捕捉静态图像和视频拍摄,因此拥有非常高的分辨率和颜色处理能力,主要用于手机、单反等。但其缺点在于逐行拍摄图像,拍摄和曝光时间过长,在VR使用场景中手势、头部追踪、脸部和眼球动态追踪等移动物体捕捉时,图像可能发生扭曲,而且功耗过高,因此不适合用于VR。而全局快门的原理则完全不同,它是一次拍摄整幅图像,所有像素同时曝光,因此成像效果准确、曝光时间短、功耗低,满足VR需求。
VR交互升级,CMOS图像传感器数量和种类需求扩容。以2022年发布的部分主流VR产品为例,PICONeo3头显四个边角各放置一颗的VGA摄像头搭载韦尔(豪威)OVM7251全局快门CIS,实现快速图像捕捉;PICO4再次基础上增加一颗单目VST摄像头,搭载了索尼1600万像素IMX471传感器。QuestPro进一步提升设备交互体验,总计装备16颗摄像头(头显10颗、手柄6颗),在6DOF追踪定位和VST基础上再增加深度识别、面部(头部+额部)追踪、眼球追踪等,引入了OVM6211、OG01A1B等CIS。
审核编辑 :李倩
全部0条评论
快来发表一下你的评论吧 !