龚俊数字人上线后:用两年让每个人实现数字人自由,百度要把数字人做成一门生意

Xsens动作捕捉 2022-12-10 9712

百度做数字人的初衷,并非为了替代人,而是为了“服务人和陪伴人”。


龚俊数字人上线后:用两年让每个人实现数字人自由,百度要把数字人做成一门生意


演员龚俊有了一个自己的数字化身。从五官和身材到表情和肢体动作,龚俊数字人和本人几乎一模一样。除了做一些演艺方面的唱跳动作,数字人龚俊可以像“Siri”一样去回应用户的很多问题和指令,简单来说,可以将他理解为一个搜索引擎的交互界面。


你如果问他“今天天气怎样”,他会快速识别并用温柔的嗓音播报自己的搜索结果。至于调整夜间模式、书架、游戏等功能,也可以通过他来实现语音直达。从粉丝的反应看来,她们很是喜欢这个数字世界里的虚拟偶像。


龚俊数字人是由百度打造的,国内第一个可以在APP内实现用户互动的超写实数字人。这背后依靠的能力来自于百度智能云曦灵,一个以人工智能为基础,集数字人生成、业务编排、内容生产为一体的平台产品。百度智能云曦灵基于过去几年百度在数字人行业的能力积累搭建而成,诠释的是百度对于数字人行业的价值主张及其原子能力。


随着元宇宙概念的兴起,数字人的风口已来,以百度为代表的科技公司正在深入布局数字人行业。“虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。但在工具、应用层,中国企业已开始崭露头角。”1月14日,百度智能云AI人机交互实验室负责人李士岩在百度科技沙龙《AI呀,我去!》上表示。


《虚拟数字人深度产业报告》内容显示,2030年中国数字人整体市场规模将达到2700亿元。直白地说,百度已经准备好了将数字人做成一门生意,而元宇宙到来之前,团队对这门生意是如何理解的?又计划如何使它成功落地?


数字人的魅力所在


通过百度智能云曦灵数字人平台的底层技术,数字人已经可以拥有“灵魂”。


以龚俊数字人为例,他之所以逼真,是因为团队将AI技术加入CG制作,并通过4D扫描、智能绑定等AI技术,捕捉龚俊说话及日常表情面部细微变化、口型面部肌肉动作等,使其表情神态更加接近本人也更自然。


而逼真之外,能听、能说、能互动是“灵魂”中更为重要的部分。事实上,在龚俊数字人这类基于形象超写实的“明星数字孪生”之外,百度早已具备“灵魂”塑造的能力。


2021年两会期间,央视网首次亮相了名为“小C”的数字虚拟小编,同年11月,百度也正式推出了首个AI手语主播,将服务于2700万残障人士,二者都是基于百度智能云曦灵平台打造。


小C虽然是虚拟数字人,但她的发丝、肌肤毛孔、说话口型、微表情等细节都清晰可见。她不仅掌握英语、法语、德语等多语种输入,还可支持完全拟人的微笑、眉眼及身体动作,能进行实时流畅互动,完全可以在直播中胜任记者的角色。


AI手语主播的工序再复杂一些。百度智能云采用自研的语音识别、机器翻译等AI技术,构建出一套复杂而精确的手语翻译引擎,实现了文字及音视频内容到手语的翻译;再通过专为手语优化的自然动作引擎,进行虚拟形象的驱动,将手语实时演绎为数字人的表情动作。


事实上,数字人能够达成这样的标准并不容易。


尽管随着新时代消费者对虚拟化内容与服务的需求不断增长,加之元宇宙概念在全球兴起,各行各业都逐步将数字人视为未来用户交互的重要载体,但数字人本身并不能无序、随意制造。它本质上是适用于各行各业的新型网络应用服务,如同社交、电商、外卖等,也需要一个提供专门服务的强大平台。


问题就在于当下国内数字人发展存在着一系列痛点:产业链效率较低、上下游生态未完全打通、缺乏标准化体系、缺乏平台等等,最终造成应用门槛居高不下。


李士岩坦言:“虽然未来数字人的市场规模非常可观,但目前数字人的规模化落地还面临三大难题,分别是产业链割裂、服务场景与演艺场景没有有效打通、满足高频需求成本高。”


具体来看,首先,数字人产业链各个节点相对割裂,不能高效协同,导致数字人在制作和调优上存在较高壁垒,目前行业中大多数公司只是数字人制作与运营全流程上的一环或其中几环;其次,服务场景与演艺场景没有有效打通,表现为演艺型数字人不具备客户所需的业务能力,而服务型数字人缺乏人设,难以与用户进行情感交流;第三是满足高机动性、高频需求的成本依旧很高,这一问题归根结底还是数字人的生产效率问题。


为系统解决这些难题,百度推出数字人平台“曦灵”。百度智能云曦灵以数字人平台打造平台为切入口,不仅通过平台化的方式让更多数字人进入平台来均摊前期的投入成本,并且基于平台打造完整的生态链服务,在解决痛点的同时,将数字人的高门槛、高投入快速下调,变成普及化服务。


从具体技术细节上来看,无论是龚俊数字人、虚拟小编还是AI手语主播,他们的生动、鲜活、逼真背后都有百度智能云曦灵的AI引擎作为支撑,具体又分为人像驱动引擎、语音引擎、语义引擎等。


通过上述引擎对应的能力,百度可为广电、互娱、金融等领域客户提供一站式的虚拟主持人、虚拟偶像、品牌代言人的创建与运营服务,包括二次元、2D、3D 高精多种数字人风格,大大降低数字虚拟人的实现门槛。


而为了使数字人能够真正成为可供企业运营的数字资产,百度智能云曦灵包含三大子平台作为交付基础:包括对话编排、知识配置、商品推荐等的业务编排与技能配置平台;可供生产短视频和平面素材生产、自动化及真人驱动直播等的内容创作与IP孵化平台;以及可供配置人像、音色、背景等的人设管理平台。


由此,百度智能云曦灵具备了标准化的快速交付能力和满足个性化需求的定制化交付能力,而企业亦可以自主生产出一个符合自己各方面需求的数字人:只需要需求对接、人设定义、软件开发三个阶段,整个周期最短可以控制在一个月之内。


演艺与服务两大场景


自“初音未来”走红开始,二次元用户对于数字人的认知就已经开始搭建,而这位虚拟歌手所对应的“虚拟偶像”身份,也是数字人最早被用户所定义的标签。但随着技术的成熟和需求的增长,“虚拟偶像”这个单一类别已经不能满足现实世界对于数字人的诉求。


经过多年积累,百度认为数字人的应用场景大体可以分为两类:服务型和演艺型。


服务型数字人是百度从2019年就在实践的一个方向,主要应用在金融、政务等对办理业务有刚需的领域,例如打造可与客户一对一交互的数字员工,其核心是为了降本增效和提高服务满意度。


在这个维度上,百度已经与大量客户完成商业化落地,包括民生银行、交通银行、中国联通等,间接服务至少上千万人次。


第二个大类,也就是演艺型数字人,于今年上半年初步开始落地。该场景不同于服务型数字人以“一对一服务”交互为主,更多是面向“1对N”交互,像前面提到的虚拟主播、虚拟偶像、明星数字孪生,以及虚拟品牌代言人,都是典型的应用场景。


在行业的共识中,服务型数字人以降本增效为目标,需要大量文本驱动,演艺型可以自定义人设并进行运营,一旦触及自己的目标用户,就可以为自己创造流量,实现为品牌引流,例如小红书上大火的AYAYI及抖音上受到追捧的柳夜熙。


李士岩提供了更技术层面的解读:服务型数字人在作为虚拟员工和虚拟业务员的时候,其场景特征是比较离散的,例如在客户A上创建的业务流程,不一定适用于客户B,演艺型数字人的场景特征则相对收敛。


基于这样的区别,两种产品形态在实现标准化上也各有差异。在服务型数字人场景下,“客户的服务流程跟生产流程的差异,就决定了它无法百分百做到标准化。”李士岩表示,产品只能在个人的声音、外貌等生产流程方面形成标准。


而演艺型数字人在未来实现标准化生产便相较更容易,在定义好人设、外貌、声音之后,可以直接通过内容生产平台制作海报、短视频并进行直播。


这样的特点决定了演艺型数字人的商业空间可能会高于服务型数字人。李士岩认为,服务型数字人会有更高的商业曲线,因为它高度考验数字人的随机应变能力和交互的顺畅度等,需要公司具备全链路能力,背后可能是大几百亿到千亿的市场规模。


同时,《虚拟数字人深度产业报告》内容显示,2030年中国数字人整体市场规模将达到2700亿元,其中演艺型数字人(身份型数字人)约1750亿元,服务型数字人超过950亿元。


演艺型数字人由于场景收敛,对全链路能力没有特别高的要求,但对内容生产的要求高,尤其是虚拟偶像和虚拟代言人,在人设、社交等细节层面需要很强的个人化风格。


而百度在行业中的竞争力,很大程度就在于从人像资产的生成到训练的AI全链路技术架构,这意味着团队可以通过全链路调优将合成做到最好。


至于为何要在服务型数字人业务开展两三年后,将演艺型数字人整合进来,李士岩表示,“我们相信数字人价值释放需要两种场景互相促进,缺一不可。”他举例称,服务型数字人如果想“事倍功半”必须发挥其IP价值,而演艺型数字人如果想进一步释放价值其场景也需向“服务”领域延展。


曦灵的原子能力


数字人背后的技术门槛比外界想象的要复杂,随着技术的不断演进,这个行业至今还没有所谓的“主流”技术。据了解,一些技术供应商能够提供多种数字人解决方案,这是为了对应数字人需要的不同细分场景。 


在百度的方案中可以看到,团队不仅对于数字人涉及的AI技术进行全链路覆盖,并且有针对细分场景打磨的能力体系。


从开始打磨到正式商业化,李士岩认为可以分为两个阶段来判断百度数字人产品能力的筹备周期。


第一个阶段在底层能力基础,数字人所考验的AI全链路产品,涉及语音、视觉、跨模态、知识库等底层原子能力,在这方面百度已有十几年的储备。在第二阶段,百度在推出平台化产品之前,已经有3到5年平台化技术储备,通过内部产品孵化出了平台化能力。


而在所有技术能力中,数字人背后的驱动力是最重要的能力之一,这决定了数字人最后生产出的内容是否能够真正打动用户。


目前,百度智能云曦灵支持真人驱动、AI驱动、融合驱动等多种直播方式。其中,AI驱动是由AI对舞蹈、唱歌、语言等进行完全编排,使用者不用再进行操作;真人驱动则是通过摄像头、动捕设备对真人动作、表情等进行3D高精细度模拟;融合驱动则是半真人半AI的驱动方式。


李士岩认为,驱动力背后的技术支撑来自于百度在三个层面的能力构建。


第一层是原子化的基础能力,例如在云相关的能力上,百度的ASR可以做到准确性达到98%以上,在TTS方面也推出了标准化产品,支持用20句话定义一个新的声音,并用更多数据进行精细化训练,同时保证了产品的轻量和还原度。


第二层在于数字资产的生产管线。目前数字资产的制作痛点之一在于周期漫长,从建模到绑定需要一到两个月,而百度具备的“生产管线”能力可以快速提升效率。例如在人设管理平台上,数字人的脸型、五官、发型、服装等多个维度都可以通过调整进行组合搭配,从一定程度上解决数字资产尤其是3D资产创建成本较高的问题。


而第三层也就是最后一层,则是到达百度智能云曦灵这样的平台化产品。


谁需要数字人?


目前,数字人经历了以“纸片人”为代表的1.0阶段,以Vtuber主播为代表的2.0时代,已进化至3.0阶段,具备模型高精、人工智能驱动特点的数字人3.0成为行业主流。


李士岩介绍,第三代数字人的建模和内容生产均有AI参与,这使得数字人的制作效率更高,也更智能,能面向更多应用场景。可面向全群体用户,可由视频、直播、chatbot等载体承载,更具备千人千面的互动能力。


对外推出虚拟数字人的商业化能力,百度已经基于自身和行业做了周全的考虑。最终决定数字人能否成功商业化的核心,是客户是否能获得真实价值。“帮客户降低成本和提升服务满意度”,李士岩仍然看重这两点,“如果做不到这两点,我们是不会商业化的。”李士岩说。


正如前文所述,用数字人来打造流量明星和网红IP已经不是一件想象中的事情。根据艾媒咨询的预测,2021年中国虚拟偶像的核心市场规模将达到62.2亿元,带动周边市场规模达到1074.9亿元。而在B站、小红书等内容社区,已经可以看到大量用户对于虚拟偶像表现出的认可和接受度。


并且,对于品牌而言,采用虚拟品牌代言人也是一种迫切需求。近年来,由于明星代言人频频出现负面事件,受到恶劣影响的品牌不在少数。对品牌而言,挑选一位合格的代言人成为一项越来越谨慎和艰难的工作,而演艺型数字人可以很大程度上消解这样的顾虑。


首先,数字人的核心在于可以被定义人设,品牌根据自身的调性和气质找一位真人明星也许很难,但由此定义一个全新的虚拟品牌代言人却是简单的。并且虚拟代言人是可控的,很难出现网络上常见的所谓“人设危机”。


更关键的是,明星与品牌之间是合作关系,随时会解绑,但虚拟品牌代言人将成为企业的数字资产,可以持续利用和开发。此外,随着这一数字资产的IP属性愈发强大,它也可以为企业的业务流程带去正向价值,甚至创造更多经济效益。


当然,面对用户隐私数据监管趋严的大环境,以及开放域对话影响用户心理的可能性,百度也做出了充分的考虑。一方面,其各类人脸识别和相关数据保存要绝对符合相关法律和标准;另一方面,在用户心理呵护上,李士岩表示在开放给公众使用之前,产品都会经过大量的压力测试。


不过他强调,百度做数字人的初衷,并非为了替代人,而是为了“服务人和陪伴人”。基于多年的AI技术沉淀, AI能力已成为百度智能云曦灵平台的核心能力,现在百度也在把这种能力开放给外界。“我们近两年的奋斗目标是通过百度智能云曦灵平台的开放,让每个人实现数字人自由。”李士岩说。

The End