基于虚拟现实技术的演播厅系统设计——以“虚拟演播厅”设计为例

Xsens动作捕捉 2022-11-06 8502

本文刊发于《现代电影技术》2022年第2期

专家点评

《基于虚拟现实技术的演播厅系统设计——以“虚拟演播厅”设计为例》一文基于虚拟演播厅搭建、Composure实时抠像技术、Unreal的MetaHuman Creator数字角色生成器、Live Link动作捕捉系统及推流服务器，集成为打破空间和成本局限的虚拟演播厅整合设计方案，用当下的先进技术解决小成本演播室制作直播录播节目的现实痛点。该论文从虚拟现实基本概念、发展应用现状、场景搭建、实时合成、角色（真人与数字角色）及采集播出，清晰表述并完成了整个流程的搭建，提出其不同于演播室常规布置及传统演播室三光法的重要区别，该方案可以通过计算机、手机和摄像设备等简单设备实现演播室的诸多功能，具有较强的实际应用价值。

——周雯

教授、博士生导师

北京师范大学艺术与传媒学院数字媒体系主任

作者简介

沈浩，中国传媒大学国家舆情实验室主任，中国传媒大学新闻学院博士生导师，中国传媒大学媒体大数据研究中心首席科学家，主要研究方向：传播研究方法、大数据挖掘、人工智能、空间网络分析、数据可视化、舆情分析；

于英龙，中国传媒大学计算机与网络空间安全学院硕士研究生在读，主要研究方向：数据可视化、计算机图形学、电子游戏创作；

刘霄锋，中国传媒大学计算机与网络空间安全学院硕士研究生在读，主要研究方向：数据挖掘、数据分析和可视化、机器学习。

摘要

本文提出了一种基于虚拟现实技术的演播厅设计，能够解决小成本演播厅影视制作困难的问题。解决方案分为四步：搭造虚拟环境；真人出镜录播、直播；虚拟角色面部动作绑定；虚拟主播出镜录播、直播。本文提出的设计可以通过计算机、手机和摄像设备完成演播厅的功能，实时控制虚拟角色的面部动作，降低制作录播、直播视频的难度，进一步推广虚拟现实技术的应用。

虚拟现实虚拟角色演播厅推流动作捕捉

1引言

虚拟现实技术是在20世纪发展起来的全新的实用技术，通过虚拟与现实相结合，给使用者带来环境的沉浸感。该技术使用现实生活中的数据，通过计算机图形学和渲染技术，建模生成一种虚拟环境，与各种输出设备相结合，比如：虚拟现实头盔、虚拟现实眼镜、虚拟现实体验仓等，让使用者感受到计算机中模拟出的景象，这些景象可以是现实生活中真实的物体、环境，也可以是完全虚构的物质。

1984年，VPL公司的Jaron Lanier首次提出了“虚拟现实”的概念，这时的虚拟现实技术还只是运用于航天、军工等专业领域。在1995年，3dfx公司推出了被称为Voodoo系列3D图形加速芯片，同时期三维图形生成技术、多传感器交互技术和高分辨显示技术也被提出，虚拟现实技术通过电子游戏、电影等音视频方式进入大众视野。

2016年，Sony公司基于PlayStation 4家用电子游戏机推出了虚拟现实头戴式显示器PlayStation VR；Valve公司基于自己游戏平台Steam与HTC公司合作推出了虚拟现实头戴式显示器HTC Vive；Facebook旗下的子公司Oculus也推出了虚拟现实头戴式显示器Oculus Rift。同时期，英伟达公司推出了RTX系列显卡，通过DLSS深度学习超级采样技术、RTX实时光线追踪技术、CUDA技术极大提升了显卡的算力，使得三维场景能够以实时渲染的方式，以1920×1080像素的分辨率、60帧/秒的速率运行，这让虚拟现实技术渐渐进入到了各行各业中。

虚拟现实技术在影视和广播电视行业的应用也在逐年加深，由The Weather Channel电视网使用Unreal引擎搭建出了沉浸式混合现实天气演播室，主播在介绍各地天气情况时，演播室的环境会随着天气的情况发生改变，用户能够根据画面感受到将要到来的天气状况，这让天气预报和分析更具吸引力；由迪士尼公司发行的真人剧集《曼达洛人》（The Mandalorian）借助虚拟现实技术，不使用绿幕而是在摄影棚内搭建了LED幕墙背景（图1），根据已经渲染好的场景素材进行拍摄，并在导演监视器前直接生成背景特效已经完成的画面，演员也能够在表演时了解自身所处的环境，更好地达到表演的要求。

图1 《曼达洛人》拍摄场景

2现实情况

虚拟现实技术自2012年通过虚拟植入的方式已经在央视春晚应用多次，各省级电视台、网络媒体也渐渐开始结合虚拟现实技术，借助强大的演播厅功能推出各种特色节目。但是在我国一些三四线城市的市级电视台或区（县）级电视台或者大学的校级电视台，只有一个演播厅，且其要承担多档栏目制作的情况下，传统实景演播厅设备的指标、稳定性、部分相应功能已经无法满足当下的栏目制作需要，配套设备也存在年久失修的情况。

使用传统演播厅录制节目时，需要根据不同节目的特点制作场景道具，有时还需要对道具进行修改，费时费力，这种传统节目环境制作方式已经无法满足节目场景需求多样化、栏目特色鲜明化、节目制作快速化的特点。除此之外，由于场地限制（上述电视台演播厅的场地都在100m2左右），无法满足综艺等大场地节目制作的条件，同时策划的思路也容易被场地大小所制约，导致一些充满想象力的创意被现实的条件所埋没。

与有专用演播室的电视台相比，一些大学的实验室、项目组甚至没有相应的场地、专业的器材、拍摄制作的人员，但又会经常面临客人参观、领导开会等场面，需要通过文字、视频等方式将研究成果展示出来，让参观者、观看者能够具象理解该实验室的技术水平，因此需要有一个能够快速制作介绍内容的方法，满足实验室的要求。

3 虚拟演播厅场景布局

基于上文提到的种种问题与不便，首先是实体演播厅空间太小或是根本就没有空间的问题，通过使用三维建模软件等技术搭建所需要的演播厅环境，基于光照渲染技术，也可以让搭建好的虚拟演播厅环境达到“以假乱真”的效果。对于演播厅的布局构造也要考虑到多方面应用，不仅是直播类型视频的制作，应同时兼顾录制类节目的制作。

基于真实演播厅进行的设计，即将虚拟演播的布局按照现实中的演播厅进行还原，设置好录制区、监控区、调音区等后期区域，在画面中根据区域放置不同的功能。但由于要还原现实，导致建模工作增多，类似于包装区、机柜区等区域完全可以通过系统的功能进行代替，其存在意义仅为模拟真实情况，较易占用渲染资源。

因此基于虚拟演播厅进行的设计，并非按照真实演播厅的情况进行布局设置，只保留与画面有关的录制区域，并没有监控区、调音区、包装区、机柜区等需由软件实现的后期制作区域。与现实区域相比，在进行布局设计，仅考虑镜头因素即可，场地大小、机位数量不再成为限制性因素。对于出镜位置的设计时，仅考虑美观与画面合理性，且可以针对不同类型的节目设置不同的区域，不需要考虑现实因素。

图2 虚拟演播厅场景布局

以图2所示布局为例，演播厅大体分为三个区域：

一部分是直播节目录制区域，用于直播节目的制作，后方的显示区域组件可以根据实际的节目需求，放置相关的图文案例，以满足深度融合节目信息，也可以使用视频流软件完成视频连线、其他视频流导入功能实现真实的演播厅功能。

另一部分是录制节目区域，可以用于访谈、介绍类节目的制作，同理，也需要在该区域内放置一个显示区组件，用于播放视频、连线等功能。因为显示区域是以组件的形式被添加到系统当中，所以使用者可以根据实际情况需要来控制显示区域的显示和隐藏，相较于实体演播厅中常使用的LED屏幕或是大尺寸的液晶电视来说是极为灵活方便的。

最后一个区域是单人区域，可以实现单人评论类节目的制作。

虽然三个区域在空间上是独立的，但是也可以做到在使用上相互连结，只要设定好相应的机位，在制作过程中随着内容去控制不同机位的切换，实现主持人和嘉宾的实时互动，并且在虚拟环境中，摄像机的数量、位置可以不受限制，免去了摇臂、滑轨等大型器材设备在空间上的额外消耗与人力消耗。

因为由三维建模所搭建的应用场景自由度较大，完全可以搭建出一个远大于实际演播厅使用面积的虚拟环境，再根据实际情况，对布局进行适当调整，自行搭建符合需求的演播厅布局。

4 真人出镜录制与实时合成

对于虚拟演播厅来说，主播、主持人或演播厅角色的选择有两种方法:真人出镜和虚拟人物出镜。其中，真人出镜的拍摄方式是采用真人加绿幕的形式，便于后期的抠像。绿幕放置于被拍摄者后方，绿幕的内容即为虚拟演播厅的背景。在搭建绿幕时要保证被拍摄区域平整，还需保证绿幕的补光已达到最佳的效果。布光时，使用两盏LED灯分别从绿幕左右两侧45度，以5100K的色温射向绿幕，便于在后期抠像过程中将被摄主体与绿幕分离开来，对于拍摄者主体来说，如果拍摄场地允许，建议采用三点式布光法，即主光、侧光、轮廓光。

基于剪辑软件的抠像，即使用传统剪辑软件的颜色键进行抠像。在录制结束后，还需将视频文件进行处理后再导入到演播厅系统中。

基于实时合成技术的抠像，即使用Composure技术进行实时抠像。录制结束可直接将视频素材导入到演播厅系统中，无需等待由剪辑软件渲染，直接将真实世界的图像或视频片段与计算机生成的图像实时渲染为单个无缝混合的图像。

图3 自定义材质通道蓝图布局

基于合成材质中的嵌套元素功能，即将视频素材嵌套在任意元素当中，并最终让视频素材呈现在该元素顶部，使用自定义材质通道方法在材质中引用相关元素，达到实时抠像的效果（图3）。

图4 播放功能的蓝图

为了让完成实时合成的视频素材进行播放，需要使用蓝图编辑器定义好播放逻辑。使用事件播放（Event Begin Play）节点实现播放逻辑，即运行系统后，视频素材获得运行的消息并相应完成打开源（Open Source）动作，达到播放的效果（图4）。

5 虚拟角色出镜录制

5.1 虚拟角色的交互方式

除了采用真人出镜的方式，还可以采用虚拟角色出镜的方式。与真人不同，需要首先考虑虚拟角色交互的方式。虚拟角色的交互是虚拟电影的一个重要内容，如今，虚拟角色则被称为“虚拟数字人”。在虚拟演播厅中，可以安排一个虚拟角色来担任这个演播厅的主播，向观众进行语音播报。

“虚拟数字人”在虚拟演播厅中的定位是“主播”。以《新闻联播》为例，主持人在镜头画面中肢体并不会大幅度移动，变化最多的则是头部动作、面部表情和嘴部动作，也就是说，主持人在直播时颈部以下几乎不会运动，即使有时会有手臂的运动，也是对观众视角无意义的运动。因此在制作虚拟角色的交互系统时，可以把重心放在角色颈部以上的位置。

基于关键帧技术利用插值，在角色动画帧序列中手动定义关键帧，由关键帧直接自动生成过渡动画。由于虚拟主播的交互动作是以面部表情和嘴部动作为主，且嘴部的动作要匹配说出的文字，人工定义关键帧的技术耗时巨大的特点并不符合“直播”内容形式的实时要求。

基于运动学方法的技术则是根据现实中的运动规律，提前定义好运动算法函数，绑定虚拟角色骨骼信息。由于虚拟角色并不需要大量的肢体动作，且该种方法生成的运动方式不自然，消耗成本较高且并不能满足虚拟角色实时渲染的需求，故不采用该方法。

对于动作捕捉方法的技术是通过采集动作捕捉演员的动作信息，实时录制虚拟角色的动作。虚拟演播厅系统并不会使用OptiTrack光学动作捕捉系统和Leap Motion手势识别数据采集方式。上述两项系统都需要较大的场地并配备专业的设备器材，所付出的成本和学习时间都不适合小成本演播厅影视制作使用，且主要对虚拟角色的头部运动和面部表情进行的捕捉，并不需要对肢体运动进行捕捉。

5.2 虚拟角色的头部面部动作捕捉

基于Live Link功能与Live Link Face应用相联动，可以直接将高品质的面部动画从采集设备（手机）实时传输到虚拟演播厅系统中的虚拟角色上。Live Link动作捕捉流程如图5所示。Live Link作为一个通用接口，将外部来源的动画数据传输到Unreal引擎中。Live Link Face应用的面部追踪功能则利用了iPhone X及以上机型的ARkit和True Depth前置摄像头提供的面部识别和运动追踪功能，可以区分人面部的50多种特定的肌肉位置、拓扑结构和运动变化。

图5 Live Link动作捕捉流程图

图6 Live Link 设置画面

利用局域网传输技术，接收面部数据的手机可以与虚拟演播厅系统相连接，进行面部建模数据的传输。采集设备（手机）可以与接收端通过无线网络或有线网络的方式连接在一个局域网内，以Live Link Face作为传输媒介（图6），将面部数据以网络数据的方式传输到虚拟演播厅系统中，再通过Live Link传输给虚拟角色。

图7 Live Link姿势节点设置

图8 绑定画面预览

基于混合变形的变形几何体方法，可以为几何体网络创建特定的外观。在一个由多边形建模生成的人类角色面部，在创造出各种各样的表情之后，通过混合变形方法，将这些表情混合在一起，以获得更加丰富、全面的表情内容。在一个特定区域的几何体数量是由控制器来决定的，通常一个几何体网络会由不同的控制器来控制一个特定的区域，每个控制器都会对一个特定的区域产生一定程度的影响，这样当控制器发生移动时，如面部发生变化时，几何体网络能够平滑地移动，不会出现几何体断裂或动作不自然的情况。使用混合变形技术会对正在变形的几何体网络产生影响，继而对其他混合变形产生影响，从而模拟出人类丰富的面部表情（图7）。Live Link会基于ARkit面部识别技术为捕捉的面部自动生成混合变形动画，生成的变形动画需要通过姿势节点，将动画信息传递给虚拟角色（图8）。

图9 将头部旋转变量与骨骼绑定

结合混合变形的理念，人类的头部运动动作也可以进行混合搭配，混合得到的头部运动动画进一步增加了虚拟角色的真实感，通过蓝图编辑器中的“数据相乘”功能，对两个运动数据进行混合，以实现头部动作混合的功能（图9），例如：头部向左转 + 头部向上抬 = 头部向左上方抬。

6 自定义虚拟角色

在虚拟演播厅系统中的虚拟角色并不是固定不变的，角色的形象与穿着根据节目需求进行适配，外形上的变化也会让节目更具沉浸感，就如同在电视台中不同的栏目有不同的主持人，主持人在不同的环境中有不同的穿着。虚拟角色是通过建模软件生成的。

运用Maya、Blender等传统三维建模软件进行角色建模，是从零开始的角色建模，这类传统的建模方式需要使用者有一定的美术、图形学基础，建模所需时间较长，若对角色的外形进行调整，还需要额外再次进行渲染，同时也需要拥有专业级别的图形工作站才能快速渲染出高精度的模型。传统的建模方式自由度更高，角色的外观更多样化，但并不太适合小成本演播厅影视制作。

图10 MetaHuman Creator 界面

基于云服务器的渲染建模方式，例如MetaHuman Creator（图10），是由服务器渲染好预设角色模型后，再通过视频流传输的方式，呈现在使用者的计算机上。这种建模方式主要依靠网络传输速度，不需要拥有专用的图形工作站，而且由于已经预渲染好了角色模型和材质，使得建模方式更像是“捏人”，通过调整预设好的各种部位、服装来达到快速建模的效果，同时也能够保证角色材质、纹理的精度。

图11 Quixel Bridge中的Metahumans选项卡

图12 Metahumans绑定后的结果

通过模型(材质)等资产互通的链接器，例如Quixel Bridge（图11）使用链接器将模型资产传入到虚拟演播厅系统当中，通过Live Link进行绑定（图12）。

7 虚拟演播厅框架搭建

7.1 直播画面采集与推流服务器设置

面对直播需求时，不能将采集到的视频以视频文件的形式导入到虚拟演播厅系统当中，只能以视频流的形式进行导入。在使用摄像设备进行拍摄时还需要使用视频采集卡将摄像设备的画面实时输入到采集视频流的计算机中。直播架构图如图13。

图13 直播架构图

视频流采集完成后，需要使用推流软件和流服务器将视频流以URL的形式推出。

推流服务器分为本地推流服务器和在线推流服务器，其中基于本地服务器的推流服务器可以选择运行推流软件的计算机，即将推流软件与推流服务器部署在同一台计算机中；也可以选择与推流软件在同一局域网中的计算机，即将推流软件与推流服务器分别部署在两台不同的计算机中，以缓解服务器压力，提高服务器运行质量，提升推流品质。而基于在线服务器的推流服务器，可以使用在线服务器的形式进行部署分发，以更高规格的硬件设备进行视频流的分发，但是对网络环境的要求更严格。

面对小成本演播厅影视制作问题，直播需求量小且对视频流的质量没有严格限制，使用本地推流服务器更为适合。

图14 Nginx服务器监控界面

图15 OBS软件开始推流界面

基于nginx-rtmp-module所实现的推流服务器（图14），主要借助RTMP（Real-time Messaging Protocol）协议和HTTP协议完成推流，且其拥有较强的稳定性和丰富的功能，配置文件较为简单，占用资源少，进行简单的推流地址和串流密钥设置之后，即可完成推流（图15），适合虚拟演播厅系统使用。

基于阿里云、腾讯云等云推流服务器，不需要再使用Nginx进行配置，可以免去本地服务器占用的压力。对于视频流质量要求严格、直播推流需求量大的情况，采用云推流服务器的形式更能满足需要。

图16 使用媒体流播放蓝图

基于流媒体源（Stream Media Source）插件可以将视频流传输到虚拟演播厅的系统中，在蓝图编辑器中完成播放逻辑与实时合成抠图（图16），以达到直播内容形式的效果。

7.2 直播与录播串流设置

基于视频串流技术的推流直播、录播可以将多种不同的视频流合并串成一个视频流，经由流服务器分发出去。将基于Unreal引擎所搭建的虚拟演播厅系统与通过摄像设备采集到的视频串流在一起，在串流过程中调整各个视频流的尺寸、声音大小与转场特效的设置来模拟真实演播厅所实现的功能，这也是整个虚拟演播厅呈现的最终状态。

例如图17，就是通过摄像设备、两台流服务器与Unreal引擎所搭建的虚拟演播厅的运行逻辑图。

图17 “面部头部动作捕捉”直播逻辑图

8 结语

本文提出了一种基于虚拟现实技术的演播厅设计的方案，能够解决小成本演播厅影视制作困难的问题，通过Unreal引擎和OBS串流软件模拟出了现实演播厅制作视频界面和直播的效果。随着虚拟现实技术的发展，越来越多的影视难题逐渐被解决，拓展了电影、电视的可能性，相信在未来，虚拟现实技术也将在电影电视技术的发展中，进一步贡献力量。

参考文献：略

主管单位：国家电影局

主办单位：电影技术质量检测所

刊号：CN11-5336/TB

标准国际刊号：ISSN 1673-3215

官方网站：www.crifst.ac.cn

期刊发行：010-82139735/56

The End

标签：博主很懒，并没有设置标签

« 2024年1月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

行业新闻

相关文章