坚持价值投资

做创业者的资本战略合伙人

虚拟人云程发轫,穿透技术寻找投资机会 | 彬复研究

首页    彬复研究    虚拟人云程发轫,穿透技术寻找投资机会 | 彬复研究
虚拟人是通过绘画、CG、扫描等方式制作,依赖显示设备存在于物理世界中,但本身并不具备物理实体的人物。近年来,虚拟人的应用场景越发多样,相关技术快速发展,虚拟人正逐步融入我们的日常生活中。虚拟人公司可以初分为IP运营类和工具产品类,前者需要具备较强的IP创造和孵化能力,后者基于底层技术打造开发工具产品提供给运营方规模化使用。

我们认为现阶段可以重点关注具备或部分具备如下特征的企业:(1)重视静态资产、动态数据的积累;(2)融入成熟行业,建立标杆案例,具备规模化的基础;(3)基于引擎、AI等技术开发产品,降低虚拟人运营的门槛;(4)针对高品质虚拟人,提供高可靠、低成本的云端实时渲染技术。

注:全文共计12000+字,阅读大约需要30分钟。彬复行研文章,信息密度较大,但是干货满满,enjoy~

虚拟人的概念及基本分类

 

虚拟人是通过绘画、CG、扫描等方式制作,依赖显示设备存在于物理世界中,但本身并不具备物理实体的人物。如会“捉妖”的柳夜熙、清华学霸华智冰、大厂员工AYAYI等都是虚拟人。

虚拟人的形象可以分为3D超写实、3D半写实、2D真人、3D卡通和2D卡通,驱动方式包括无驱动、脚本驱动、中之人驱动和AI驱动。

  • 无驱动的虚拟人:不能实时交互,主要以图片形式活跃在社交媒体,目前主要应用于互联网社区以及品牌代言等场景。

  • 脚本驱动的虚拟人:不能实时交互,以预先设置好的脚本运行,只能展示固定内容,目前主要应用于信息播报场景。

  • 中之人驱动的虚拟人:可以实时交互,形象背后由真人扮演,通过动作捕捉设备实时驱动,目前主要应用于虚拟直播、虚拟演唱会等娱乐场景。

  • AI驱动的虚拟人:可以实时交互,通过AI等技术自动生成内容,与人实时对话,同步嘴型、表情和动作,目前相关技术尚未成熟。

 

图1 虚拟人分类

 

行业发展历程及驱动因素

随着技术进步和需求增长,虚拟人行业进入了智能化、多元化的发展阶段。虚拟人行业的发展经历了萌芽阶段、2D阶段、3D探索阶段、3D互动阶段以及现在的智能化、多元化阶段。1892年,“动画之父”埃米尔·雷诺在巴黎著名的葛莱凡蜡像馆,首次公映了光学影戏(动画),这标志着世界动画正式诞生,动画中的角色是最早的虚拟人。20世纪60年代-21世纪,计算机动画技术的发展推动了动画的表现形式由2D转化为3D,同时动作捕捉、语音合成等技术的发展提升了虚拟人的交互效率/能力。目前虚拟人创作的相关技术百花齐放,虚拟人逐渐向智能化方向发展,应用场景向教育、生活等领域延伸。2018年至今,出现了众多应用于不同场景的超写实虚拟人。

表1 虚拟人及相关技术发展历程

资料来源:彬复资本根据公开资料整理

表2 2018至今推出的超写实虚拟人(部分)

资料来源:智东西、公开资料

政策支持、技术进步和需求增长等因素推动虚拟人行业快速发展。

1、政策支持

 

国家出台多项政策支持虚拟人相关技术及行业的发展。

2020年11月,国务院办公厅发布《关于推进对外贸易创新发展的实施意见》,提到“充分运用第五代移动通信(5G)、虚拟现实(VR)、增强现实(AR)、大数据等现代信息技术,支持企业利用线上展会、电商平台等渠道开展线上推介、在线洽谈和线上签约等”。

2021年3月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》发布,其中提到“推动三维图形生成、动态环境建模、实时动作捕捉、快速渲染处理等技术创新,发展虚拟现实整机、感知交互、内容采集制作等设备和开发工具软件、行业解决方案”。

2021年10月,广电总局发布《广播电视和网络视听“十四五”科技发展规划》,提到“推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产,创新节目形态,提高制播效率和智能化水平。到2025年,IP化制播标准体系基本完善;各级广播电视播出机构制播系统广泛实现IP化,制播流程更加优化,内容生产智能化水平显著提升”。

2022年8月,北京市经济和信息化局发布《北京市促进数字人产业创新发展行动计划(2022-2025年)》,提到“全面提升数字人自主可控技术创新能力”、“建立健全数字人上下游产业链资源配置机制”、“到2025年,我市数字人产业规模突破500亿元。培育1-2家营收超50亿元的头部数字人企业、10家营收超10亿元的重点数字人企业”。

2、技术进步

 

5G普及、算力成本下降,云端实时渲染、AI等技术快速发展,使得虚拟人具备规模化条件、智能化基础。

第一,算力成本的下降及云端实时渲染技术的发展。

虚拟人和虚拟环境越逼真,对渲染技术和算力的要求会越高,未来高品质虚拟人的渲染上云将成为趋势。

以英伟达和AMD的单芯片旗舰显卡为例,2007至2021年期间,英伟达每秒GFLOPS成本由2.21美元降至0.04美元,AMD每秒GFLOPS成本由0.44美元降至0.04美元。

图2 2007-2021年英伟达单芯片旗舰每秒GFLOPS成本

(单位:美元/每秒GFLOPS)

资料来源:彬复资本根据公开资料整理

图3 2007-2020年AMD单芯片旗舰每秒GFLOPS成本

(单位:美元/每秒GFLOPS)

资料来源:彬复资本根据公开资料整理

注1:计算方式为旗舰显卡的售价/每秒GFLOPS。FLOPS指每秒浮点运算次数,GFLOPS指10亿次浮点运算。

注2:英伟达和AMD的FLOPS不能直接比较。

云端实时渲染技术方面,蔚领时代是全球领先的实时云渲染解决方案提供商,其致力于打造面向未来的可视化交互的算力基座。蔚领时代于2022年8月发布了中国首款电影级云原生游戏《春草传》,每分钟内容云端资源量超过10G,真实达到8K画面、120hz刷新率、杜比环绕音的高品质视听效果,其所展示的实时云端渲染技术同样可以为高品质的虚拟人提供算力基座。公司创始人兼CEO郭建君表示:以实时云渲染为核心的可视化交互,将是未来数字世界的主要形态,蔚领时代致力于打造下一时代算力基座,将持续为开发者开放生态能力,助力行业打造更多符合用户需求的产品,最终构建更庞大、更真实的数字世界。

 

第二,深度学习以及三维重建等算法的发展。

三维重建算法提升了虚拟人建模的效率,深度学习则是虚拟人进行智能交互的基础。近几年,深度学习快速发展,Github上创建的关于深度学习的仓库数量从2014年的326个增长至2021年超过8万个。据Gartner统计,深度学习的专家职位从2014年之后开始出现,2018年该职位的需求缺口已超过4万个。

图4 Github上各年创建的关于深度学习的仓库数量(单位:个)

资料来源:Github,彬复资本整理

3、渠道多元化

 

线上线下渠道的发展给虚拟人提供了多种互动展示方式。

第一,手机、智能大屏、AR、VR、全息投影等硬件载体的发展,使虚拟人的呈现方式更加多样化。

第二,社交、社区、媒体、电商等各类平台为虚拟人的多媒介布局奠定基础。根据QuestMobile,微信、淘宝、抖音、微博、京东、快手、哔哩哔哩和小红书2021年12月MAU分别达到10.1、8.6、6.7、5.0、4.2、4.1、1.7、1.6亿人。同时,各社交及电商平台鼓励虚拟直播,开始打造虚拟直播体系。根据B站公布的数据,2020年6月至2021年6月,共有超3万位新的虚拟主播开播,总投稿量超189万。京东也正在构建虚拟直播“宇宙”。

第三,无人便利店、银行、KTV等也为虚拟人提供了线下渠道,虚拟人可以提供广告推广和咨询等服务。

4、需求多样化

 

虚拟人具有性价比高、无人才流失及道德风险、可塑性强、工作时间和使用寿命长等优点,能够满足用户的多样化需求。
  • 性价比高:虽然虚拟人前期建模成本较高,但随着人工智能技术的进步与虚拟人培育的成熟,后续运营成本将逐步降低。
  • 无人才流失风险:在虚拟人属于公司自有IP资产的情况下,该虚拟人完全由公司自主可控,不会出现真人偶像走红后跳槽的风险。
  • 无道德风险:近几年国内娱乐圈的艺人常有失德的问题发生,而虚拟人有天然的安全性优势,人设不会轻易翻车。据头豹研究院统计,约62.60%的用户喜欢虚拟偶像是因为其不会有负面新闻。
     
图5 用户喜欢虚拟偶像的原因
资料来源:头豹研究院
  • 可塑性强:虚拟人可以根据用户的需要随意制作成任何形象。
  • 工作时间长:虚拟人可24小时不间断进行服务,真人需要轮班或者晚上不提供服务。
  • 使用寿命长:虚拟人可以永恒存在。
  • 满足情感需求:百度创始人李彦宏曾透露自己做虚拟人的一大初衷是因为想在怀念时,与过世的父亲沟通,他认为这种情感需求会促进虚拟人交互方式产生很大的市场。
     
     
图6 韩国MBC纪录片《遇见你》中妈妈通过VR再见因白血病去世的女儿
未来十年互联网原生代逐渐成为消费主力,对虚拟人拥有更高的接受度。Z世代踏入社会,逐渐成为消费主力,Z世代的成长伴随互联网的成长,其线上注意力时间显著高于年长代际,且在多互联网场景中活跃度较高,将成为虚拟人的主要受众群体。
图7 Z世代用户在多互联网场景中活跃度
资料来源:中金公司研究部
注:活跃占比TGl=Z世代用户每个标签属性的月活跃占比/全网具有该标签属性的月活跃占比*100;时间为2020年11月。
 

虚拟人的主要应用场景

 

虚拟人起源于娱乐场景,在2018年之前主要应用于影动游等泛娱乐场景中,如今,随着技术的发展以及用户代际的更迭,虚拟人逐步应用于金融、教育、零售等更多场景中,市场空间巨大,具体见表3及图8。其中虚拟主播包括两类,一类是在抖音、B站等线上渠道进行直播的虚拟人,与虚拟歌手类似,该类虚拟人需要进行一定的才艺展示,并且和用户进行交流、互动,目前技术水平不足以支持AI化,因此主要是通过中之人驱动的方式;另一类是电商中进行直播带货的虚拟主播,品牌方对该类主播目前要求较低,主要是希望其满足真人不在线时的直播功能,虚拟人对话仅需要满足简单的产品介绍和答疑,动作仅需要满足简单的表情和个别指令性动作。与第二类虚拟主播相似,数字员工如虚拟理财顾问、虚拟网店客服等,也主要满足场景化需求即可,用户对其语言方面的需求高于动作。
表3 虚拟人应用场景不完全列举
资料来源:彬复资本根据公开资料整理
虚拟偶像、数字员工、数字替身三类虚拟人都拥有广阔的市场空间,预计虚拟偶像较早实现商业化,数字替身市场成熟时间较晚。
虚拟偶像可以参考真人偶像,据艺恩统计,2020年真人偶像市场规模总计约1315亿。但是二者存在一定差异,第一,虚拟偶像音乐场景可能会出现UGC的内容,这将扩大市场规模;第二,由于没有档期的限制,虚拟偶像演艺成本下降,但是在剧集、电影、综艺方面对其的需求会增加;第三,虚拟偶像可以实现千人千面的表演,这将增加受众范围,进而增加市场规模。由于该类虚拟人相关技术较为成熟,目前发展较为迅速,预计较早实现商业化。
对于数字员工,据头豹研究院估计,传统智能客服潜在市场规模为300-400亿元,而虚拟人客服相较传统智能客服增加了新的应用场景,如线下场景,因此市场规模更大。对于线下场景,以银行为例,2020年银行共有网点22.67万个,假设每个网点有一个虚拟柜员,每个虚拟柜员每年服务费用为2万元,规模总计45亿。因此预计数字员工类虚拟人拥有千亿市场规模。目前部分企业已经开始试点,数字员工的初步需要已经能够满足,但是技术仍需迭代,以及场景的渗透需要时间。
对于数字替身,由于在不同的场景人们所想要表现的形象可能存在差异,所以未来每人可能拥有超过一个虚拟化身,这也是一个巨大的市场。但是由于该类场景的实现不仅需要虚拟人技术发展程度较高,也需要相应的支持性产业有较为成熟的发展,因此此类虚拟人市场成熟时间预计较晚。
图8 虚拟人市场空间
资料来源:艺恩、中国银行业协会、人民日报、教育部、中商产业研究院、头豹研究院

虚拟人的行业版图

 
虚拟人产业链包括基础软硬件、AI能力及解决方案平台、泛娱乐及企业服务应用三个层面,其中虚拟人公司可以初步分为运营类和技术类,二者成功所需的核心能力不同。
上游基础层又分为建模、绑定、渲染引擎等软件以及光学器件、传感器、芯片、显示设备等硬件,此部分发展已经相对较为成熟。平台层包括建模系统、动捕系统和云平台等软硬件系统平台,提供计算机视觉、智能语音和其他AI技术的AI能力平台以及将各种技术进行整合和产品化的虚拟人厂商,这部分为产业链中较有发展潜力和价值的部分。下游应用层包括泛娱乐类公司、企业服务类公司以及IP运营类公司,前两者主要为传统行业,已经发展较为成熟,后者为产业链中出现的新方向。
图9 虚拟人产业链
资料来源:彬复资本根据公开资料整理
虚拟人公司可以初步分为IP运营类和工具产品类,二者成功所需的核心能力不同。对于IP运营类,公司需要具备自有IP、极强的IP塑造和运营能力以及合适的商业模式。
  • 如果企业IP非自有,在虚拟人发展后期可能出现和真人MCN机构相同的问题,即运营方和IP方产生分成矛盾,进而导致IP方不再与公司合作。
  • 公司需要为IP设置合适的人设,需要对用户喜好有精准的把握,拥有市场敏感度。同时,虚拟人不同于真人,不能靠IP自身摸索市场风格,公司需要对每个IP都要独立进行精细化运营。
  • 具备在各平台/渠道进行虚拟人IP的营销推广能力,与渠道/平台能够形成深度的合作。
  • 清晰的商业模式。
 
技术类公司需要有一项或几项核心技术,并且具备将其产品化和规模化的能力。下文我们就技术具体展开。

创造AI超写实虚拟人的主要技术

 
商汤研究院将虚拟人按照拟人化程度以及自动化水平分类为5种级别,其中L5虚拟人完全实现智能化交互,可以处理全局性、通用性问题。本文技术部分主要围绕L5级别超写实虚拟人展开。一方面完全智能化交互是各类虚拟人的重要发展趋势,另一方面超写实虚拟人的创作工序繁琐,效果要求精细,相关技术流程基本涵盖了另几种虚拟人形象制作所需要的技术。
图10 虚拟人L1-L5等级
资料来源:商汤智能产业研究院
L5级超写实虚拟人是指依赖显示设备存在于物理世界中,具有逼真的人类外观、语言和肢体表达能力,能够与人类进行智能、实时互动交流的人物。他们的特点是具有人的特征、行为和思想,这需要计算机视觉、智能语音、情感计算等技术的共同支持。
首先,虚拟人需要“听见”用户的声音。虚拟人对用户的声音进行语音识别后,进一步进行自然语言处理,在知识图谱中搜寻相关问题的答案,进而合成语音,佐以不同的情绪,传达给用户。其次,虚拟人需要“看见”用户的动作。虚拟人对用户的动作进行图像识别和理解,然后得知用户的情绪以及状态,这将辅助自然语言处理与情绪识别。与之类似,虚拟人也可以对文本内容(如直播间中的弹幕)进行识别。最后,在经过“大脑”对用户的语音、动作、文本进行理解后,虚拟人需要相应做出适当的动作。虚拟人的动作分为几个部分,其中表情为情绪驱动的,肢体动作为语义和情绪共同驱动的,口型和无含义的表情(如眨眼)及手势是语音驱动的。目前2D、3D虚拟人均已基本实现口型动作的智能合成,其他部位动作主要通过录播实现。
语音和肢体动作是未来虚拟人实现千人千面的重点,语音交互技术目前已相对比较成熟,各种智能音箱、语音助手层出不穷;而复杂的肢体动作目前较难实现,因此,肢体动作可能是目前虚拟人赛道需要重点关注的技术点。
图11 AI虚拟人技术路径
资料来源:彬复资本
此外,超写实虚拟人的动作可以避免产生恐怖谷效应。实时交互的超写实虚拟人需要有两个特点,一是外貌逼真,二是动作逼真。如图12所示,目前虚拟人外貌已经能够达到毛孔级逼真程度,而动作还在初级阶段。这会产生恐怖谷效应,只有快速突破技术壁垒才能提升用户的喜爱度。
图12 超写实虚拟人拥有真实的肌肤纹理
恐怖谷效应:由于外表、动作相似,人类会对拟人实体产生正面的情感;而当拟人实体与人类的相似程度达到一个特定程度的时候,哪怕只有一点点的差别,都会显得非常显眼刺目,从而感觉整个拟人实体非常僵硬恐怖,犹如行尸走肉;当相似度继续上升,相当于普通人之间的相似度的时候,人类对他们的情感反应会再度回到正面。简言之,在用户对虚拟人的喜爱程度到达山顶拐点之前,用户对其的直观感受是“这不是一个真人,但是行为举止像人一样可爱”,而在拐点之后用户的感知会变成“这是一个真人,但是其行为怪异,好像不是活生生的人,令人害怕”。
图13 森政弘的恐怖谷理论
既然虚拟人的动作如此重要,那一个僵硬的模型是如何产生动作的呢?
超写实虚拟人模型的动作生成流程包括骨骼绑定(简称绑骨)、设置皮肤权重(简称蒙皮)和骨骼重定向。在虚拟人模型搭建好之后,首先要对模型进行骨骼绑定以及设置皮肤权重,然后将模型的骨骼与目前拥有的骨骼数据匹配,骨骼数据来源将在后文介绍。其中,模型绑定的骨骼数量和蒙皮的质量决定着模型动作的逼真程度,超写实虚拟人需要格外高的精细程度;此外,模型绑定的骨骼需要和骨骼数据标准一致。
图14 虚拟人模型动作生成流程
图15 虚拟人骨骼绑定
图16 虚拟人骨骼权重设置
图17 虚拟人骨骼重定向

虚拟人投资的关注点

 
现阶段,虚拟人行业相关技术重点关注如下:(1)重视静态资产、动态数据的积累;(2)融入成熟行业,建立标杆案例,具备规模化的基础;(3)基于引擎、AI等技术开发产品,降低虚拟人运营的门槛;(4)针对高品质虚拟人,提供高可靠、低成本的云端实时渲染技术。
图18 虚拟人技术类公司重点关注方向
资料来源:彬复资本

1、重视静态资产、动态数据的积累

 

(1)静态资产积累

 

由于虚拟人的使用场景由泛娱乐场景扩展到各个领域,虚拟人模型的需求暴增。传统人工建模/贴图/绑定效率相对较低,效果比较依赖于建模师/绑定师水平。而且由于后期动作匹配的需要,模型需要统一骨骼标准。因此拥有大量、统一标准的虚拟人静态资产库的公司可以保持关注。
超写实虚拟人模型的建立目前有三种方式,人工建模、结构光影棚扫描以及相机阵列影棚扫描,其中人工建模耗时较久,效果依赖于建模师水平;结构光和相机阵列建模耗时短,但前者分辨率较低,后者分辨率较高。虚拟人绑骨及蒙皮的方式也分为人工和算法两种,人工绑骨耗时久,效果依赖于绑骨师水平,算法绑骨耗时短,效果中等,但会随算法的进步而提高。
  • CG建模
     
传统人工CG建模方法效率低,效果依赖于建模师水平。由于算力限制,高精度的人物模型通常通过将高模烘焙到低模上来实现,具体步骤如下:
1)通过3D Max/Maya等进行多边体建模(低模、中模),可省略
2)通过Zbrush雕刻(高模)
3)将高模拓扑出所需要的低模
4)通过Unfold3D/UVLayout或者建模软件内置的拆分工具等展UV
5)通过xNormal/toolbag/Substance Painter等进行烘焙法线贴图
6)通过Ps/Substance Painter等制作纹理贴图
7)渲染效果
注:如果未来上云,可省略3-5步骤。
目前该方法存在的痛点是精度和效果依赖于建模师水平(布线、贴图等),且严重影响后续绑骨和蒙皮过程;工序复杂,耗时长(建模约2周,贴图约1周)。
图19 毛孔等细节可以通过雕刻或者纹理贴图实现
  • 影棚扫描建模
     
影棚扫描建模方法以一定间距和规则摆放相机,通常呈环形,演员居于中心点进行拍摄,通过不同视角得到的不同人像,来获取人物的三维数据。影棚扫描建模方式可以高效率、高效果、低成本对以真人为基准的人物建模。
表4 结构光影棚与相机阵列影棚对比
资料来源:天风证券研究院、行业调研、公开资料
图20 影眸科技的相机阵列
人物模型建立完成后需要对人物模型身体以及面部进行骨骼绑定,超写实模型身体有近100根骨骼,头部有约700根骨骼,绑定完成后需要对皮肤设置骨骼权重。绑骨及蒙皮的精细程度直接关系着虚拟人动作的逼真性,且未来虚拟人动作的生成需要模型统一标准。
  • 传统方法是通过绑定师人工进行绑定,需要耗时1-2周,效果依赖于绑定师水平。
  • 通过算法自动绑定,耗时约半小时,效果中等,会随着算法的进步而逐渐提高。
     
图21 头部骨骼绑定示意图
图22 身体骨骼绑定示意图

(2)动态数据积累

 

前文提到,目前较难通过AI生成虚拟人动作,原因之一可能在于目前缺乏足够数量的统一标准的骨骼动作,因此能够积累大量统一标准的动作数据的公司可以重点关注。
骨骼动作来源主要包括三种,通过传统手动插入关键帧(简称K帧)形成并保存的骨骼动作数据、通过动作捕捉储存的骨骼动作数据和通过算法识别视频中的动作进而提取的骨骼动作数据。其中K帧方法效率低、效果依赖动画师水平,将动作复制到其他模型工序复杂,且需要原始的动画控制器;动作捕捉方式众多,成本和效果有较大差异,目前主要用于泛娱乐场景;算法识别方法可产生大规模的动作数量,可以有针对性对个别场景进行训练,但目前精度较差。未来K帧可以用于动捕和算法识别的动作的后续修改。K帧动画和动捕骨骼数据可以作为算法的数据来源。

K帧

K帧即手动插入关键帧,根据人眼的视觉残留特性,1秒钟播放24帧是电影画面实现流畅不卡顿视觉效果的最低要求。关键帧通常是1秒动画的第一帧和最后一帧;如果动作稍复杂点,那就在中间的位置再加一帧(不等于中间帧),关键帧之间缺失的大约10张补充作用的画面就叫“中间画”。
3D动画的制作过程本质上是一个打关键帧的过程,动画师只需把角色或道具在关键时间节点上的位置、姿态、动作摆好,打上关键帧,剩下的中间过程全部交给电脑来填空。
目前该方法存在的痛点是效率低、耗时久,高精度内容1秒内容需耗费1天时间,人工成本高,精度依赖动画师,此外,将动作复制到其他模型工序复杂,且需要原始的动画控制器。
图23 K帧示意图

动作捕捉

 
 
动作捕捉(简称动捕)是指在运动物体的关键部位设置跟踪器,由动捕系统捕捉跟踪器位置,再经过计算机处理后得到三维空间坐标的数据,对人体结构的位移进行数据记录和姿态还原,主要应用于影视和直播场景。如图25所示,针对不同部位,动作捕捉又分为肢体动作捕捉、面部动作捕捉和手势动作捕捉,每种动作捕捉又包括不同的技术方案。其中光学动作捕捉以及其中的视觉动作捕捉和惯性动作捕捉最为常见。这三种不同的动作捕捉方案各有利弊,具体见表5。
图24 动捕示意图
图25 动捕种类
表5 主流动作捕捉方案对比
算法识别
2D人体姿态的发展,CPM以及Hourglass等算法能够实现很好的效果,即使是在遮挡的情况下。在此基础上,2017年,大部分基于深度学习的3D人体姿态估计开始发展。通过算法识别生成骨骼动作的优点是可以低成本产生大规模的动作数量,并且动作场景众多,可以有针对性对个别场景进行训练。缺点是训练效果对数据集依赖较重;而且相较于精细的K帧和动作捕捉,该方法精度相对较差,但是可以随着训练的增加而提升。

 

2、融入成熟行业,建立标杆案例,具备规模化的基础

 
虚拟人作为新兴行业,可以融入成熟行业,如传统智能客服行业,建立标杆案例,实现大规模、标准化。原本提供智能客服服务的公司具有行业know-how,较有可能集成其他技术,实现数字员工功能。此外,因为相较于传统智能客服,虚拟人的应用场景进一步扩充,可能出现新的垂直赛道机会。
提供传统智能客服服务的公司具有以下几个优点:
  • 庞大的客户群
  • 对客户行业深度的认知
  • 产品化能力
  • 行业know-how
  • 完善的产业链
  • 计算机语言学相关技术能力
  • 移动端、网页端等多渠道布局能力
 
由于数字员工与传统智能客服服务相比,增加了人物动画以及线下和直播等场景,需要具备:
  • 动画驱动能力(不同类型客户需要的人物类型可能不同)
  • 对新场景的know-how

 

3、基于引擎、AI等技术开发产品,降低虚拟人运营的门槛

 
整个L5虚拟人包含多种技术,行业内可能会出现一些公司具备其中某项技术的出色能力,并基于此提供轻量化、使用便捷的生产工具,替代原本复杂的应用,(类似于PS和美图秀秀)实现从PGC到UGC,这类公司可以重点关注。
目前提供虚拟内容生成工具的公司主要分为两类,一类提供简单的虚拟形象捏造以及内容录制及剪辑功能;另一类输入文本或语音生成虚拟人播报内容,部分TTS能力较强的企业向此方向发展。此外,前文提到的资产库类公司也可以提供捏人工具,视觉动捕公司也可以提供虚拟直播工具等,拥有其他技术的集成能力和产品化能力的公司也可能提供某种便捷工具。

4、 针对高品质虚拟人,提供高可靠、低成本的云端实时渲染技术

 
根据上文可知,超写实虚拟人模型细腻,皮肤纹理包括几层高分辨率的贴图,而且服装、毛发需要实时解算以实现真实的物理状态(如飘动等);此外,为了突破恐怖谷效应,模型动作和解算需要逼真、复杂,这都需要极高的实时渲染能力。一方面,虚拟人公司采用云渲染的方式可以降低算力成本。另一方面,用户移动端和PC端设备质量参差不齐,采用云渲染可以提供给用户更加高质量的体验。因此,为高品质虚拟人提供云渲染技术的公司可以重点关注。
彬复资本刘婧表示:目前虚拟人行业处于发展的早期,由于其入门门槛较低,投资机构需要大浪淘沙,投资难度非常大。我们认为,可以重点关注本文所提的关键要素。此外,创业公司应重点打造标杆案例,即与典型客户合作,切入大的需求场景,并在此基础上共同探索产品的标准化、服务的流程化,为后续规模化复制打好基础。彬复资本长期关注虚拟人行业的发展及投资机会,并希望与行业合作伙伴共同探索虚拟人的无限潜能。

 

刘婧

彬复资本投资经理

 

微信号:dreamlj_

邮箱:jing.liu@beforcapital.com

 

编辑:Kristen CAI

▎往期推荐

 

数字经济系列1:觉醒年代,中国数字经济三十年 | 彬复研究

AI视觉检测成熟在即,从场景聚焦到泛化能力的四类玩家和两条路径 | 彬复研究

基于中美对比的视角,看跨境电商如何应对增速放缓的新常态 | 彬复研究

彬复资本X用友产业投资:大浪淘金,投石问路,零工经济趋势下的投资机会探索(上篇) | 彬复研究

波澜壮阔万象丛生,从制造业演进历程看工业互联网的6类应用与3大趋势 | 彬复研究

 

 

彬复资本

 
 

 

彬复资本,关注数字经济、绿色经济和新消费领域的早期、成长期投资机会,专注于深耕行业研究,以研究驱动投资,用专注的精神、专业的能力为投资者带来长期稳健的回报。主要出资人包括险资集团、政府引导基金、上市公司、家族财富管理办公室等机构投资者等。彬复资本致力于成为助力创业者成就卓越企业的资本战略合伙人,成立至今,基金主导投资的项目中绝大多数彬复资本是领投或唯一投资方。在彬复资本的助力陪伴下,这些公司纷纷成长为各细分行业的龙头,并有望在不久进入公开资本市场。

“在看”,更多人看见