2019年的深圳,LiveVideoStack第一次邀请到了字节跳动的嘉宾来做共享。随后便经过朋友认识了王悦,他地点的火山引擎支撑起了字节跳动旗下的音视频才干,支持数亿DAU,为每天数千亿次播映与互动供给保证,他们是怎么做好这一切的?除了数据驱动、A/B测验还有哪些深度的考虑与办法呢?借LiveVideoStackCon 2022北京大会的时机,LiveVideoStack第一次采访到了王悦,涉用户体会与本钱操控,核算与网络本钱的权衡,异构核算在各场景下的使用等。

对话火山引擎王悦:多媒体继续向更高清,更交互,更沉浸演进

王悦 火山引擎 视频云架构技能总监

王悦,2006 年于清华大学电子系取得学士学位,2012 年在中国科学院研讨生院取得博士学位,现在担任火山引擎视频云架构技能总监,在多媒体领域有丰厚的算法、工程架构和产品事务经历。

LiveVideoStack:王悦你好,如果没记错,这应该是LiveVideoStack第一次正式采访你,先和咱们读者介绍下自己吧。你现在最中心的作业什么?最重视哪些技能、事务方针或是其他方面?

王悦: 我地点的火山引擎视频云部门,承载了字节跳动事务的音视频技能,经过数亿DAU、每天数千亿次播映&互动打磨的实践验证;如今,咱们不只对内为抖音、西瓜、头条产品供给服务,相同也面向各行各业用户供给视频化才干和服务,具体包含企业直播、视频点播、视频直播、图片服务、RTC、智能处理等产品才干。咱们的方针和愿景是帮助事务同伴,将海量富媒体内容以最低的本钱、最优的画质、最低的延时、最安全可靠的办法传递给受众,因此咱们所重视的技能方向掩盖多媒体内容从出产到播映的全链路,包含收集、编码、处理、转码、传输、播映等环节中所涉及到的算法和工程技能,以及大规模高并发高可靠的分发架构。

LiveVideoStack:年头,火山引擎、阿里云和腾讯云发了超低延时直播协议信令规范。接下来职业巨子还有或许走到一起下降事务壁垒的或许性吗?如果有,是什么原因让咱们走到一起协作?

王悦: 火山引擎一向秉承着敞开的姿态去构建技能产品,一方面把过往在字节事务打磨好的体系办法,规范化敞开出来,另一方面引进更多的友商一起共建,保持互联互通,打破各自的技能孤岛,让客户的接入本钱下降,功率提高,并有更多的选择空间。这点咱们在低延时直播对接的客户中,就有很正向的客户反馈,后面火山引擎也将沿着这个思路继续完善、拓展更多的技能项。关于职业友商,我信任也期望看到这个改变,敞开规范,共建规范会让整个职业趋向健康和成熟的形式发展,关于客户的价值也是最大化的,只有客户成功,整个职业才干成功。接下来火山引擎还会继续敞开和推动更多的职业规范落地。

LiveVideoStack:在经济放缓的背景下,下降本钱成为许多企业的必选项。火山引擎正在经过哪些办法下降本钱?尤其在不影响用户体会的前提下。

王悦: 企业在视频云上投入的本钱由商品单价和用量共同决议,火山引擎视频云对客户本钱负责,在不影响用户体会的前提下,经过多项技能手法继续下降单位流量和核算本钱,并挖掘用量的合理节约空间。

带宽方面经过PCDN等根底才干建造,调度手法削峰埋谷和事务间的资源复用,到达流量单位本钱的下降;在核算方面,咱们首要经过对异构核算集群的规模化使用及基于场景的灵活调度到达核算单位本钱的下降。

用量优化上从码率、糟蹋率两方面为事务供给降本才干。码率咱们首要经过算法手法下降单位像素的流量耗用,算法手法首要包含编码规范、算法的晋级,以及编码前的去噪增强、自适应处理等前处理技能。播映进程端到端全链路有很多当地有缓存的存在,消耗的带宽费用并没有都真实用在了播映上,咱们经过一系列方针剖析和监控,找到不影响播映提前的情况下操控全链路缓存的策略,下降预加载、播映缓冲、CDN等环节形成的流量糟蹋。

别的想说的一点,核算和带宽之间的收益是能够相互转化的,因此需要在两者之间找到最佳的甜点。做视频编码的同学都了解,辅导编码优化的中心准则是对带宽-失真(体会)曲线的凸优化问题,也有学者提出过在核算资源受限下,这个问题就变成了带宽-体会-核算曲面的凸优化问题,这个模型和准则完全能够从视频紧缩推行适用到整个端到端事务上,咱们尽力和优化的方针,一向是这三个维度下的事务最优甜点。

LiveVideoStack:异构平台(ARM、GPU、FPGA和AISC)在火山引擎内部的使用情况是怎样的?支持了哪些要害事务?

王悦: 这四种核算资源在火山引擎上都有规模化的布置和使用。具体来讲:

ARM板卡本来是支持云游戏、云手机等事务需求而研制的,咱们把编转码内核在ARM指令集上深度移植和优化之后,经过测算发现这种核算资源在密度、本钱方面相较x86服务器有很大优势。尽管该计划在处理速度上有一定下风,但视频点播事务大部分转码需求都对延时不灵敏,咱们正在这些事务场景里逐渐提高ARM核算资源的掩盖量。

GPU首要用于对深度学习、并行核算、高性能烘托强需求的场景,首要在视频画质检测与剖析、质量增强处理、XR云端烘托等模块用到。

ASIC是咱们正在要点规划并研制中的转码核算计划,能够看到各友商这两年都在测验这个方向,要到达一定的规模门槛才干完成正向的边沿收益。字节的事务规模,为咱们供给了一个十分宽广的完成杠杆收益的空间,咱们在这个方向投入了顶尖的研制团队,预期交给的计划,在密度、本钱方面比x86会有显著的优势。

FPGA是一种比较折衷的核算资源,密度、吞吐比x86好但比ASIC差,比较ASIC的首要优势是可擦写、更灵活,能够完成渐进迭代。咱们现在简直一切的图片和动图转码都是跑在FPGA上的。别的,为了对ASIC计划的IP性能进行充沛的验证和评估,咱们在部分点播、直播计划里也使用了FPGA计划。

LiveVideoStack:我注意到11月北京的LiveVideoStackCon上,火山引擎的团队将要点共享视频质量剖析与优化,能否扼要介绍下要害的办法?

王悦: 在音视频场景中,QoS 改变终究对 QoE 用户主观体会有多大影响,业界并没有一个公认的答案。咱们都知道体会对事务增加有帮助,可是却不知道帮助有多少,中心重视哪些点。

火山引擎视频云团队基于抖音亿级DAU实践,构建了一套能真实体现用户体会优化的方针体系,作为指引技能迭代和演进的指北针,并在质量监控体系和AB测验机制配合下,以云端一体打造音视频极致体会与本钱优化。欢迎咱们来本次专场更系统化地听取抖音背后的云端一体的视频体会剖析体系与优化技能。

LiveVideoStack:多媒体事务下一波的增加要害变量是什么?技能在其中还能扮演什么样的技能?

王悦: 从技能角度来讲,多媒体在几十年来一向是朝着三个方向继续演进,这三个方向分别是更高清,更交互,更沉溺,我认为未来适当长一段时间也一向会是这个趋势。经过在这三个方向上的继续提高,人们获取信息和沟通协作的信息量、功率、沉溺感不断提高,越来越多的日常生活和企业出产活动得以从线下迁移到线上,甚至在线上也不断衍生出一些新的场景。

首先说更高清,这个信任咱们都感同身受,曩昔几十年咱们在分辨率、清晰度方面的观影体会不断的提高,这个首要受益于视频算法、芯片算力、网络基建的继续提高。

更交互,意味更低的端到端延时,更高的即时交互人数,以及更丰厚的交互手法,这相同依赖于视频算法、芯片算力和网络基建的继续提高。近几年,凭借深度学习和图形烘托方面的技能打破,能够让更多的互动玩法和商业场景成为或许。

高清和交互是沉溺的两个先决条件,别的两个要素是更多自由度和虚实融合。从第一部电影、第一台电视机诞生至今,视频以二维矩形图画时序排列的形式来出现现已连续了100多年,咱们一向以来的视频观看形式,除了切换、快进等操作,其实对视频内容没有什么可互动的空间,也就是说没有自由度。而未来会有更多的视频使用场景供给更多的自由度,完成可探究、可交互,比如,在全景视频中,咱们能够体会到更宽广的视野;经过多机位拍照完成的自由视角技能,咱们能够取得多视角体会;而把二者结合,再经过推理、烘托和体感技能,咱们能够完成真实的6自由度视频的XR体会,我信任很快会有杀手级的XR使用的出现,给视频的出现和体会形式带来代际的改造。在与PICO共同探究XR使用的进程中,咱们也会把优质的技能和才干沉淀到火山的云XR 解决计划中,期望与更多的事务同伴一起推进职业的革新。

LiveVideoStack:多媒体技能是否现已触及极限?是否还有收益30%以上的单一技能或技能组合?

王悦: 极限理论上是客观存在的,但间隔这个极限还有多远又和实践的使用场景相关。此外,如果咱们回顾视频编码规范的发展,从H.264到H.265再到H.266,每一代规范做完之后都有人认为到极限了,可是过了一段时间之后旧的规范就又被逾越。随着技能的不断迭代晋级,关于通用视频场景来说,单一技能想到达30%的增益比较困难;而对特定使用场景的视频,单一技能要做到这个增益仍是有空间的。而即使是对通用视频场景,多项技能的组合仍是有期望逾越当前最新的视频编码规范30%以上,终究产生新一代规范。

LiveVideoStack:咱们看下一代视频编码技能,许多专家的作业方向转向与传统编码结构与AI结合。多媒体技能人下一步该怎么走?

王悦: 智能编码现在是紧缩技能的一个研讨热门,业界期望能够凭借深度学习的办法,打破传统编码结构,对紧缩功率完成革命性的提高。当然智能编码是一个新生事物,还有诸如高复杂度等问题亟待解决。咱们对智能编码持谨慎乐观态度。咱们一方面对智能编码积极探究,提前布局或许的未来;另一方面坚持传统编码的研讨,保证根基安定。更重要的是咱们期望能找到传统编码与智能编码的最佳结合点,能够同时发挥两者的优势。从现在咱们已有的研讨结果来看,将AI引进传统编码能够做到单一技能提高17%+的紧缩功率,这说明两者的结合或许会带来重大的打破。

*封面图来自Pexels


扫描下图二维码报名「火山引擎」专场活动

对话火山引擎王悦:多媒体继续向更高清,更交互,更沉浸演进