1. 虚拟数字人概念解析

虚拟数字人它是由三个部分组成:虚拟、数字、人。

  • 虚拟:存在于非物理国际,多模态存在于各种介质;
  • 数字:数字化,可仿制多个分身,多技能综合体;
  • 人:具有拟人化的表面和行为交互的才能。

详细阐明如下:

  1. 虚拟:一般是指它是存在于非物理国际,能够是多模态的存在于各种介质上,包括视频、图片,还有现在比较盛行的VR、AR等这些多种媒体的载体上,它不是存在于真实的物理国际的,它是以一种虚拟的形状来存在的。
  2. 数字:数字指的是能够数字化,一般是指它能够仿制多个分身,它是多种技能综合而成的一类的技能。现在所干流的虚拟数字人一般都是由CG建模,然后CV的生成,然后加上NLP、语音组成,以及一些常识图谱等技能,来驱动它生成一个数字人的形象。
  3. 人:一般讲的虚拟数字人是指那种偏拟人化的审美的表面。它还有类似于人的行为交互。

Metaverse-虚拟数字人技术篇

2. 制造虚拟数字人的通用架构

依据中国人工智能产业发展联盟发布的《2020年虚拟数字人发展白皮书》中指出,虚拟数字人指具有数字化外形的虚拟人物,除了拥有人的外观、行为之外,还拥有人的思维,具有辨认外界环境、并能与人沟通互动的才能。当时在业界内对数字人构成一些共识:即下图中虚拟数字人的通用体系架构,大概用这五个方面来总结:人物形象、语音生成模块、动画生成模块、音视频组成显现模块、交互模块。

交互模块是能够存在也能够不存在的。由于有一种虚拟人是单方面的输出(视频类、海报类),不存在跟人之间交互,可是其他的几维基本上是具有的,所以一个通用的虚拟数字人,一般会依靠这样的一个体系的架构来发生。

Metaverse-虚拟数字人技术篇

3. 虚拟数字人所依靠的通用技能

  1. CG建模:表现为虚拟数字人外观和拟人程度,当时干流的数字人模型格式为:3D、2D、卡通、动漫、高保真等。
  2. NLP技能:核心表现的是对话才能,一般包括文本对话,语音AI帮手等等,这个模块一般能够视为虚拟数字人的大脑。
  3. CV技能:体会在数字人的烘托显现,该部分受数据量、核算结构、要害特增点等因素影响,能否呈现天然的面部表情驱动、肢体动作等。

虚拟数字人人物分类

  1. 写实/超写实类人物虚拟人,比方:AYAYI、翎ling、柳夜熙等;
    Metaverse-虚拟数字人技术篇
  1. 二次元人物虚拟人,比方洛天依、七海、星瞳等;
    Metaverse-虚拟数字人技术篇
  1. 卡通/吉祥物人物虚拟人,比方海尔兄弟、京东狗、苏格拉宁等。
    Metaverse-虚拟数字人技术篇

虚拟数字人的驱动技能分类

  1. 动捕型驱动:原理是真人依据摄像头传来的用户视频,与用户实时语音,同时经过动作捕捉采集体系将真人的表情、动作呈现在虚拟数字人形象上,从而与用户进行交互。它生成的往往是一个静态模型,在绑定要害点之后,需求凭借真人经过动作捕捉设备进行形体、目光、动作等的捕捉,然后才能进行驱动和烘托。
  • 特色:需真人进行驱动,在动作灵活度、互动效果等方面有显着优势。
  • 技能流程:原画规划;建模+骨骼绑定;动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人;实时烘托-完结内容录制或者现场互动;
  • 技能突破:动作捕捉环节,跟着图画辨认技能,姿势、表情等辨认算法的进步,贵重的惯性或光学动捕设备不再是驱动的必备工具。
  • 运用场景:降低影视行业门槛,推动消费及转化,虚拟偶像、大型直播等。
  • 动捕型驱动示例如下:
    Metaverse-虚拟数字人技术篇
  1. AI型驱动:原理是经过智能体系自动读取并解析辨认外界输入信息,依据解析成果决议计划虚拟数字人后续的输出信息,然后驱动人物模型生成相应的语音与动作来使虚拟数字人跟用户互动。该人物模型是预先经过AI技能练习得到的,可经过文本驱动生成语音和对应动画。它是基于深度学习模型的三维场景表达和对应的神经烘托管线,能够自驱动学习模特说话时的唇动、表情、语音以及姿势和动作等。
  • 特色:语音、表情、动作首要经过深度学习实时或离线生成驱动。
  • 技能流程:规划形象或对真人形象进行打点扫描,采集模型信息;建模+骨骼绑定;练习各类驱动的深度模型,学习人物的语音、唇形、表情参数间的潜在映射联系;内容制造,基于输入的语音(或由输入文本转化的语音),猜测唇动、表情等参数,推理图片并与时刻戳结合;烘托并生成内容。
  • 技能突破:语音组成(语音表述在韵律、情感、流通度等方面是否契合真人发声的习气)、NLP技能(与运用者的言语交互是否顺畅、是否能够了解运用者需求)、语音辨认(能否准确辨认运用者需求)
  • 运用场景:虚拟人视频内容生成,虚拟客服,虚拟帮手等。
  • AI型驱动示例如下:
    Metaverse-虚拟数字人技术篇

虚拟数字人干活动捕技能介绍

  1. 光学动捕
  • 概念:光学动作捕捉技能就是在人的身体上进行符号,符号点的会反射到架设好的摄像机,经过反射的不同位置的成像信息,能够进行测算出符号点的空间运动信息,从而将这些信息进行定位或输出完成不同行业的实践运用。
  • 长处:1.动捕精度高;2.保真程度高。
  • 缺点:1.技能复杂度和拍摄要求高;2.造价本钱高;3.运用规模小。
  1. 惯性动捕
  • 概念:惯性动作捕捉技能是在人的身上佩戴陀螺仪,人运动的进程陀螺仪会进行旋转,经过感知陀螺仪的旋转信息来推算出人的动作行为完成动作捕捉。
  • 长处:1.价格相对较低;2.不依靠场所环境。
  • 缺点:1.动捕精度低;2.稳定性低,容易发生位置漂移。
  1. AI视觉捕捉
  • 概念:AI视觉捕捉不需求进行符号和佩戴,只需求在人的活动规模内经过普通的摄像头进行动作的录制完成人体要害点信息的辨认从而选用特殊的算法来完成动作捕捉。该项技能对硬件几乎没有特殊的要求,更多的优势在算法上。
  • 长处:1.简略上手;2.本钱较低。
  • 缺点:1.动捕精度低;2.自由度较低;3.视界固定。
  • 实用上手简易程度:AI视觉动捕>惯性动捕>光学动捕
  • 保真程度和稳定性:光学动捕>惯性动捕>AI视觉动捕
  • 造价本钱:光学动捕>惯性动捕>AI视觉动捕

4. 虚拟数字人的变现途径分析

虚拟数字人现在市面上呈现的变现途径大致有三种:

  1. 第一种是帮助企业树立虚拟数字人,为他们营销代言,由企业买单。现在的合作形式包括定制、IP授权和代运营。经网上数据收集,现在市面上的价格都不太一样,定制Q版大概在十几万,而定制超写实则可能需求上百万。IP授权指的是与头部虚拟人IP做KV合作和短视频软植入,收费视详细情况而定,与粉丝的联系很大。
  2. 第二种向企业直接售卖直播工具,类似于SaaS服务。它的难点在于打通集成内部的技能,以及积累的技能和样本是否足够多样。当完成SaaS化后,企业品牌能够用SaaS渠道树立数字人,操作体系简略,本钱大幅度降低。从市面上的报价来看,月费在几百元到几千元区间不等。
  3. 第三种是UGC类的创作者经济,让用户参加到创作傍边与厂商赢利共享。数字人赛道的发展需求大量用户进入承当不同的人物,不光是由于数字人的创作者和服务目标都是人,还由于在未来元宇宙的远景傍边将呈现更多数字人+数字空间的营销打法,以及更宏大的叙事,势必会发生大量的内容需求。只要更多人共同树立生态,才能让渠道具有更强的生命力和幻想空间。

在当时许多企业的的变现思路中,打造一个近乎完美的IP人设只是第一步,未来终将走向SaaS标准化和UGC规模化,可是中心进程是需求投入专业团队和技能人才进行打造,特别对于之前没有数字人周边产品和技能积累的公司,更是一个不小的挑战。

5. 虚拟数字人当时干流的SaaS渠道架构

下图是常见的按层区分的虚拟数字人渠道架构规划。从下往上依次是:服务层、协议层、化身层、运用层。

Metaverse-虚拟数字人技术篇

其中服务层涉及一些底层技能结构,需搭建“AI才能支撑渠道”来承载所有功用,应包括:语音辨认、语音驱动、文本驱动、语音转化、手势驱动、图画驱动、声纹复刻、人脸辨认、动作捕捉、OCR辨认、常识图谱、智能引荐等才能;除技能才能外,服务层还应包括运营运用装备功用;

协议层包括语音交互协议、口型驱动协议、表情驱动协议、动作驱动协议,作用是与服务层和化身层进行对接,将服务层获取到的信息进行运算处理来传递给化身层,以便于模型的操控。

化身层包括对数字人资产的办理,需搭建“人物资源渠道”来进行办理,包括:3D/2D人物库、人物配饰库、动作/表情库、特效库、背景环境库、模板办理、音视频频办理等。

运用层又称为运用场景层,该层渠道会打包成不同渠道SDK供运用集成,应包括:PC、Web、iOS、Android等。