文/VR陀螺 豌豆
虚拟化身作为真人在虚拟空间中的“投影”,对VR社交平台来说,其真实感和沉浸感体验非常重要,为了吸引更多用户加入,不少平台着手打造更拟真的虚拟化身。
【资料图】
《Bigscreen》是一款可让多名用户同时实现远程共同观看YouTube等视频内容的VR社交应用,最近更新了为其虚拟化身进行了Avatar 2.0更新,让虚拟化身有了脖子和手臂。
此前,知名社交游戏平台《Rec Room》宣布将推出全身虚拟化身,为此还组建了一个名为“Avatar Initiative”的小团队来推进开发。
图源:Rec Room
从“漂浮的半身豆豆人”到“有手有腿的人”,这样的“进化”过程背后反映了VR社交怎样的发展状况,这些平台热衷于设置全身虚拟化身的意义在哪?
踏入虚拟社交圈第一步,先“捏人”
虚实结合已成为当前互联网发展的一大趋势,相应的3D数字资产、虚拟化身也更贴近现实世界,逐步进化出新的社交产品。
年轻群体则是社交平台的主力军,为了更好地向年轻群体提供尽情自我表达的机会,不少VR社交平台作出了努力,从二维到三维,由玩家操控的部分自由度越来越高。
概念图:动作由具有全身追踪功能的玩家控制(图源:Rec Room博客)
Rec Room团队的开发博客写道:新的化身系统为《Rec Room》的用户提供设置了全身和手指追踪功能,其虚拟化身将绑定一个人形骨骼。通过基础的VR设置,反向运动学系统(IK)将根据头显和控制器的位置将用户角色的肘部和肩膀放在特定位置,还可借助SteamVR的全身追踪技术实现更准确的动捕效果。
图源:《VRChat》IK 2.0
不只是《Rec Room》,最大的VR社交平台之一《VRChat》也在2022年专门为用户进行了IK2.0系统更新,可支持11点全身追踪,为虚拟化身提供各种与追踪有关的功能改进。
除了《VRChat》以前IK 1.0支持的全身追踪(腰部和双腿)之外,IK 2.0的追踪系统还可以支持双肘、双膝和胸部的追踪点。通过在身体躯干部分安装运动追踪器并对其进行识别,将更细致的运动反映在VRChat的虚拟化身中。近期还为用户更新了本地眼动追踪、手势识别等功能,可支持Quest Pro等设备。
以《VRChat》为例,玩家们热衷于在虚拟空间还原现实世界的各种体验,无论是逛展、购物还是学习外语,都能在《VRChat》找到真实感,但玩家们也苦于技术上的限制,追踪不准确等问题,无法进一步做出流畅的动作,甚至是发挥设计创意。
既然玩家都希望得到全身追踪支持,为什么不一开始就开发全身虚拟化身?因为早年间由于技术的限制,其虚拟化身设计遵循了在VR中使用的可行性,在保持这些角色的魅力和亲和力的同时避免恐怖谷效应,于是不显示未被追踪的腿和手臂,选择更简单的形象设计,以便游戏顺利运行。
仅靠头显和手柄极难捕捉更准确的身体运动数据。用户对更真实的虚拟体验的追求,也成为了不少VR社交平台对全身追踪功能的“执念”,社交平台要支持多人在线,庞大的运动数据对服务器来说也是一大考验,官方也要提供全身追踪的功能,团队需要相关技术人员持续提供服务并更新。
常见的全身动捕方案
虚拟化身作为人类在数字世界或元宇宙的一大映射,全身虚拟化身可以带来怎样的沉浸感?Meta Connect 2022大会所展示的全身虚拟化身给大家带来了更多想象。
“有腿的”扎克伯格虚拟化身(图源:网络)
如今动捕技术广泛应用影视动画特效、游戏制作等领域,要完全沉浸于VR的虚拟世界,动捕是必不可少的技术之一。目前主流的两种动捕方案分别是光学式动捕方案和惯性式动捕方案,其他方案还包括视觉动捕、机械式、声学式、电磁式,不同方案都有适用的场景和特点。
视觉动捕方案
视觉人体动作捕捉通过高精度的相机从不同角度对运动的目标进行拍摄。当拍摄的轨迹被相机获取之后,程序会对这些运动帧进行处理和分析,并最终在电脑中还原出追踪目标的轨迹信息。
该方案的优势就是不需要任何的穿戴设备,约束性很小,可以通过软件模拟计算出人体数字骨骼的关节点,再基于卷积神经网络的学习估计出做动作时骨架姿势的变化,随后在骨架模型上渲染出整个人身体的轮廓,且受相机台数影响会有不同程度的误差,但呈现效果会更自然。
光学式动捕方案
光学式动捕可以分为无标记点式光学动捕和标记点式光学动捕。其中无标记点式光学动捕普遍存在关节定位计算误差大、缺少骨骼自旋运动自由度、层级骨骼运动误差累积导致动作变形等问题。
标记点式光学动捕一般由光学标识点(Markers)、动作捕捉相机、信号传输设备以及数据处理工作站组成。在运动物体关键部位(如人体的关节处等)粘贴Marker点,多个动作捕捉相机从不同角度实时探测Marker点,数据实时传输至数据处理工作站,根据三角测量原理精确额计算Marker点的空间坐标,再从生物运动学原理出发解算出骨骼的6DoF运动。
惯性式动捕方案
惯性式虽然后于光学式出现,但以其超低廉成本和简便成熟的处理流程,以及完全实时的数据计算和回传机制,成为了更加炙手可热的技术。
惯性式动作捕捉中加速度计是用来检测传感器受到的加速度的大小和方向的,它通过测量组件在某个轴向的受力情况来得到结果,表现形式为轴向的加速度大小和方向(XYZ),但用来测量设备相对于地面的摆放姿势,则精确度不高,该缺陷可以通过陀螺仪得到补偿。
另一种解决方法则采用IK+(InverseKinematics)室内定位技术做主动作捕捉算法,使用惯性式动作捕捉做辅助算法。这套方案中利用室内定位技术对惯性式动作捕捉技术做实时校准,避免了不断校准的麻烦。
动画演示IK的动作原理(图源:YouTube/Miloš Černý Animation)
在人体分层结构中,关节和骨骼实际构成了运动链,比如肩关节、肘关节、腕关节及其子骨骼就是一条运动链,是整个人体运动链上的一条分支,身体即是利用运动链对运动进行控制。运动分为正向运动和反向运动。已知链上各个关节旋转角,求各关节的位置信息和末端效应器(endeffector)的位置信息,这是正向运动学的问题;而己知末端效应器的位置信息,反求其祖先关节的旋转角和位置,这就是反向运动学。
反向运动学根据决定运动的几个主关节最终角度确定整个骨架的运动,通常用于环节物体,由不同运动约束的关节连接成环节构成的分级结构骨架。如:投球动作,只规定出球的起始位置、终了位置和路径,手臂等跟随关节的转动可按反向运动学自动算出。反向运动学方法在一定程度上减轻了正向运动学方法的繁琐工作,是生成逼真关节运动的最好方法之一。
如何让虚拟化身的“肢体语言”更真实
图源:Roblox
苏黎世联邦理工学院此前的两项研究都在探索深度学习能力与动捕技术,为用户提供更高保真的虚拟化身。
AvatarPoser
Meta Reality Labs曾联合苏黎世联邦理工学院发布关于全身动捕的研究“AvatarPoser”,这是一项基于深度学习算法,仅通过用户的头显和手柄的运动输入数据来预测用户全身运动的姿势,并实现稳定追踪。
如今MR头显已经可以做到流畅地追踪用户头部、手部的姿势,以便在虚拟空间中进行交互。虽然这已经能够支持用户的基本运动数据输入,但反映到虚拟化身上,也只能实现上半身的交互,也就是类似《Rec Room》《Horizon Worlds》这类VR社交应用所呈现出来的“漂浮的半身豆豆人”形象。
如果要呈现全身虚拟化身,还需要另接追踪器和传感器。该团队表示结合大型人体运动捕捉数据库(AMASS)取得了不错的试验效果,为元宇宙应用提供了良好的全身追踪效果和全身虚拟化身。
AvatarPoser的研究则是建立在Transformer模型编码器的基础上,从输入信号中提取深层特征,并将全局运动与学习局部关节方向解耦,来获得类似于运动捕捉动画相同效果的全身运动,团队则使用IK的优化程序来完善手臂关节的位置,以匹配原始追踪数据。
准确地估计末端效应器的位置在MR中特别重要,比如在虚拟场景中的手,因为手都是在运动链上的。然而,由于手通常被用来提供输入,即使是位置上的小误差也会大大干扰与虚拟界面元素的交互。为了解决这个问题,研究团队整合了一个单独的IK算法,根据已知的手的位置来调整手臂肢体的位置。
图源:AvatarPoser研究
根据神经网络输出的估计参数进行基于IK的优化。产生输出后,AvatarPoser的IK模块会调整肩部和肘部关节的估计旋转角度以减少手部位置的误差,如上图所示。因此本次研究固定了肩部的位置,而没有优化其他的旋转角度。从而发现由此产生的全身身体姿势显得比IK算法的输出更准确,误差更小。
为了定性评估的AvatarPoser稳健性,团队在实际的VR系统上执行了自有算法,使用了一个HTC VIVE头显以及两个控制器,每个控制器能提供6DoF的实时输入(实际效果如下图所示)。
图源:AvatarPoser研究
X-Avatar
姿势、眼神、面部表情、手势等统称为“肢体语言”,也一直是许多学术研究的主题。准确地记录、解释和创造非语言信号可能会大大增强AR和VR环境中的虚拟化身的真实性。
如现有的最先进的SMPL系列的化身模型,可以正确地展现出现实位置的不同人体形态。然而,它们仍然受到所使用的基于网格的表示方法和三维网格质量的限制。此外,这类模型通常只模拟裸体形态,不会附带衣服或头发,降低了结果的真实性。
图源:X-Avatar研究
苏黎世联邦理工学院与微软研究人员合作展开新研究项目“X-Avatar”,可以捕捉高保真的人类身体和手部动作、面部情绪和其他外观特征。该技术可以通过完整的3D扫描或RGB-D数据中进行学习,输出身体、手、面部情绪和外观的综合模型。
研究人员用一个由位置、面部表情、几何形状和变形表面的法线构成的纹理网络来增强几何和变形领域,以高频细节捕捉虚拟化身要实现的外观。产生了更好的保真结果,特别是对较小的身体部位,同时在铰接的骨骼数量不断增加的情况下保持训练的有效性。但该研究也提到,目前对远离身体的宽松服装(如裙子)的建模效果仍不完善。
AGRoL
现阶段的全身追踪仍需要外接传感器才能实现,而Meta AI最近发布的一项研究展示了一种新的虚拟化身模型,据称可在VR中实现流畅的全身运动。
“Avatars Grow Legs”,简称“AGroL”,是一种扩散模型,专门设计用于仅通过少量上半身信号来追踪全身运动。该方案基于多层感知 (MLP) 架构和一种新颖的运动数据调节方案。
根据研究人员的说法,在测试时,它能够预测精确而流畅的全身运动,这可以解决VR全身追踪的问题。而用户只有在接触地面时,才会偶尔出现伪影。
来源:YouTube
研究人员使用AMASS的动作捕捉数据集展示了该模型的有效性。与 AvatarPoser 等其他虚拟化身系统相比,AGroL的旋转、位置和速度误差似乎要少得多,且与其他虚拟化身模型相比,虚拟手臂和腿的抖动发生频率要低得多。AI技术与虚拟化身的融合有望进一步改善实时人体运动追踪的效果。
结语
从以上研究来看,可以仅从MR头显和用户的手或手持控制器的传感器来预估更准确的全身运动姿势,或通过3D扫描和深度学习功能将现实中的服饰外观反映到虚拟化身的身上,再结合AI技术,能进一步提高虚拟化身的真实性和沉浸感。
早前也有不少企业开发出便携式动捕追踪器,例如索尼的mocopi,包含6个追踪传感器,每个传感器的直径为3.2厘米、重量仅8克;还有HTC发布的采用Inside-Out方案的追踪器,重量不到100g,与VIVE Tracker 3相比薄了50%。
数字时代的人们拥有了虚拟化身,也就多了一个能更自由表达自我的形式,无论是小众的、古怪的、渴望拥有的、现实中没有的趣味穿搭都能通过虚拟服装展示出来,甚至能打扮成喜欢的人物形象,吸引有共同爱好的人构建兴趣圈。
未来的动捕方案成本有望进一步下降,实现全身追踪的难度降低,可以让更多普通用户在VR中实现全身追踪,进一步满足用户对虚拟社交真实感的需求。
参考链接:
https://blog.csdn.net/Zhang_hongchao/article/details/78839715
https://arxiv.org/pdf/2303.04805.pdf
https://arxiv.org/abs/2207.13784