从技术全景到场景实战,透析阿里云视频云「窄带高清」的演进突破

跟着5G时代的到来,互联网短视频、电影电视剧、电商直播、游戏直播、视频会议等音视频事务呈井喷式发展。

作为通用云端转码渠道,阿里云视频云的窄带高清需求处理海量、不同质量的视频。关于中高质量的视频,现有的窄带高清1.0就能提供满意的转码作用,并带来达30%的带宽本钱降低;而关于有显着紧缩失真和成像噪声的低质量视频,需求运用性能更好的窄带高清2.0进行去紧缩失真、去噪和增强处理从而得到更好的观看体验。

在2022稀土开发者大会上,阿里云智能视频云技能专家周明才以《阿里云窄带高清的演进突破与场景实战》为主题,深度分享阿里云视频云在窄带高清上的研制考虑与实践。

01 窄带高清的源起

谈及窄带高清之前,先来聊聊一般的云端转码流程。转码本质上是一个先解码再编码的进程。从下图可以看到,一般云端转码是在用户端先形成一个原始视频,经过编码之后以视频流的方法传到服务端,在服务端解码之后做转码,然后再编码经过CDN(内容分发网络)分发出去,此刻一般转码首要的功能便是做视频格式的共同,并在必定程度上降低码率。

未标题-1-05.png

窄带高清是什么?它与一般转码的首要区别是什么?经过窄带高清的字面意思可以了解,“窄带”是指让视频经过窄带高清转码之后,对带宽的需求变得更小。一同,“高清”是指经过转码后的画质仍然可以坚持高清、丰富的视觉体验。

上图的下半部分也便是窄带高清的流程,与一般转码流程不同点在于,在云端做了解码之后,窄带高清还会对视频质量做增强处理,以及运用编码信息来辅助提高视频质量。经过质量提高后,再用针对片面质量做过优化的编码器进行编码,最后进行分发。

总结来说,窄带高清本质上处理的是质量提高和紧缩的问题,其首要方针是寻求质量、码率和本钱的最优均衡。

阿里云早在2015年就现已提出了窄带高清这一概念。在2016年正式推出窄带高清这一技能品牌而且进行了产品化。

未标题-1-06.png

今年,阿里云推出了窄带高清2.0极致修正生成版别。相较于先前版别,最大特点是能生成细节纹路做到极致修正。

窄带高清全景图

窄带高清在做自习惯参数决策时首要考虑三个维度:事务场景、视频热度、视频内容。

由于事务场景的不同,比如电商直播、游戏直播、赛事直播,所需求的视频增强和编码参数不一样;关于一些高热内容,如:在手淘场景中可以用窄带高清2.0发动二次转码来完成质量的进一步提高和码率的节约;在视频内容维度,会针对当时的视频做一些High-level和 Low-level的剖析,High-level包括语义的剖析,特别是ROI的检测,Low-level包括视频紧缩程度、模糊程度、噪声程度的视频质量剖析。

未标题-1-07.png

依据以上这些维度的剖析,可以得到自习惯参数的决策作用。依据此作用,窄带高清再去做相应的视频修正和视频增强。详细来说,视频修正包括强紧缩失真、降噪等,视频增强包括细节增强、色彩增强、对比度增强等。

02 视频内容剖析

ROI

ROI的首要意图是在码率受限或码率共同的情况下,将码率尽或许分配到人眼更重视的区域,比如在电影电视剧中,观众会更多重视主角的脸。

依据ROI的处理和紧缩,有以下两个难点:一是怎么得到低本钱的ROI算法,二是怎么依据ROI进行码控决策,例如:确保ROI区域片面质量提高的一同,非ROI区域的片面质量不会显着下降;一同做到时域连续、不闪耀。

未标题-1-09.png

在低本钱ROI核算方面,阿里云自研了自习惯决策的人脸检测盯梢算法,这是一款低本钱、高精度的算法。在极大部分时刻只需求做核算量极小的人脸盯梢,只有少部分时刻做人脸检测,从而在确保高精度的情况下,完成超低本钱和快速ROI获取。

从下图表格里边可以看到,阿里云自研算法相比开源人脸检测算法,精度和召回基本上没有损失,一同复杂度和核算耗时有显着数量级的下降。

在有了ROI算法之后,需求对场景、视频质量的自习惯码率分配进行决策。针对此难题,首要考虑与编码器结合,在片面和客观之间获得均衡,一同确保时域的共同。

未标题-1-10.png

JND

传统视频紧缩办法首要依据信息理论,从猜测结构的角度减小时域冗余、空间冗余、统计冗余,但这对视觉冗余挖掘是远远不够的。

未标题-1-11.png

在JND算法里,首要选用了两个算法,一个是空域JND算法,一个是时域JND算法,拿到这些JND算法后,咱们再依据MOS的自习惯码控算法,对QP做自习惯的分配,最终完成在通用场景及片面情况下,码率可以节约30%以上。

未标题-1-12.png

03 视频修正增强

细节增强

讲到视频修正增强,提及最多的便是细节增强部分,作用确实会比较显着。

一般的细节增强依据UnSharp Mask的框架。阿里云视频云自研的细节增强算法,有以下三个特点:第一是有更精细的图画纹路细节提取方法,能提取不同尺寸,不同特征的图画纹路结构,增强作用更优;第二,算法可以经过对图画内容纹路结构剖析,依据区域纹路复杂度完成部分区域自习惯增强;第三个特点是算法可以和与编码结合,依据编码器的编码信息反馈来自习惯调整增强战略。

未标题-1-15.png

色彩增强

一般收集的视频资料,由于收集的设备或许光线亮度的原因,导致资料色彩或许看起来会比较昏暗。特别是在短视频场景,这类视频会失掉视觉吸引力,因而需求色彩增强。

未标题-1-16.png

色彩增强存在哪些难点问题?详细怎么做色彩增强?

像Ffmpeg里边有EQ filter,EQ filter会用UV通道去做色彩增强。而在咱们的自研算法里,实际上是在RGB色彩空间去做增强,即会依据当时色彩点的饱和度,去做一些部分的自习惯。一同,也会依据当时画面全体的情况,做一个全体的自习惯。

在肤色维护这块,由于传统的色彩增强完之后,人脸区域会泛红,片面视觉上不自然。为了处理这一问题,咱们选用了肤色维护的办法,对肤色区域做一个额定的维护。

这是一个色彩增强前跟增强后的作用对比。可以看到增强后的绿色的蔬菜、肉,整个的色彩看着会更丰满,关于美食类视频来讲更可以激发起观众的胃口。

未标题-1-17.png

对比度增强

在对比度增强中,运用了经典的CLAHE算法,其思路是对一个视频帧做分块,一般分红8×8个分块,在每一块统计直方图。然后统计直方图的时候,对直方图做一个Clip,便是所谓的对比度受限的直方图均衡,这首要是克服过度扩大噪声的问题。依据CLAHE的视频对比度增强其实有一个难点,便是时域闪耀问题。这在学术界也是一个较难的问题,到目前为止,还没有得到十分彻底的处理。

未标题-1-18.png

降噪

降噪在ffmpeg里边有许多算法,比如像BM3D、BM4D、 NLM,这些算法的去噪作用好,可是复杂度十分高,会导致速度慢本钱高,或许还需求合作噪声估计模块来一同运用。

别的还有一些相对均衡的算法,速度比较快,可是作用不强。假如想要提高它的去噪强度,一般会引入一些伪影或细节丢掉的问题。

未标题-1-19.png

依据这些调研,咱们自研的降噪算法选用依据多分辨率分化在上面做滤波框架。首先是对输入图画会做小波分化,得到高频跟低频信息。关于高频做软阈值处理。关于低频选用双方滤波降噪。经过这种滤波或许软阈值之后,再从头合成回去,就可以到达去噪意图。算法的中心难点在于怎么去做加快,使得本钱和运算速度可以满意转码要求,尤其是实时转码场景,对速度要求是十分高的。

加快

算法团队关于小波变换加快做了包括整形化许多的测验,总是存在一些累积差错。所以咱们最后选用了浮点型加快方法,用avx2浮点加快可以到达大约三倍的提高。

别的是双方滤波这部分的加快,传统的双方滤波依据邻域像素的操作。这种依据邻域的操作其实十分慢的。因而,咱们选用了RBF这个快速算法,把二维的滤波分化成一维的,一同选用递归的方法去从左到右,从右到左,从上到下,从下到上,这样的一维操作,就可以完成类似于原始双方滤波作用。经过选用RBF这个快速算法,咱们可以获得大约13倍的加快。此外咱们还做了这种AVX2汇编的优化,这块可以额定加快十倍左右。

未标题-1-21.png

上图是SDR+的全体作用图,在经过SDR+的处理之后,画面全体的对比度、亮度、明晰度会有很大的提高,以上这些是针对视频增强做的一些作业。

CDEF去振铃

首先是CDEF去振铃,CDEF自身是源自于AV 1的一个技能,在CDEF处理之前,强边际附近会有许多的毛刺和振铃。经过CDEF处理之后,画面中的噪声得到很大的剔除。

CDEF算法的中心进程,其实是一个平滑滤波的进程,只不过它的平滑滤波的权重、误差都做了一些特殊的处理。特别是它的滤波权重,跟当时像素点地点的8×8像素区域的首要方向是有联系,也便是图中左下角这儿展示的,它会去做一个最优方向的一个查找。查找完了之后,依据主方历来确定它的这个滤波器抽头的方向和权重。此外,CDEF有两部分的权重,一个是主方向的WP,另一个是辅助方向WS。然后关于邻域点和当时点的灰度误差做切断,这可以避免过平滑。

未标题-1-23.png

去紧缩失真

除了用CDEF依据传统的图画处理算法做去振铃之外,还做了依据深度学习的去紧缩失真的算法。这个算法是依据多帧的方案,更利于帧间连续性,不易呈现帧间闪耀。“窄带高清”算法分红两大块:一个是质量检测模块,一个是去紧缩模块。质量检测模块可以辨认不同质量视频源的紧缩程度,然后输出QP MAP作为紧缩强度衡量指标。另一个是去紧缩模块,输入多帧视频和对应帧的QP MAP,运用QP MAP进行自习惯去紧缩。

未标题-1-24.png

极致修正生成

极致修正生成首要是针对画质比较差的场景,去除较强的紧缩失真的一同,生成一些因紧缩而丢掉的细节。在极致修正生成研制中,有以下几个关键:一是构建训练数据(在训练数据构建时,参照了Real-ESRGAN的二阶退化思路);二是对比较灵敏的人脸区域,确保人脸生成稳定性;三是做模型紧缩时,使得模型核算量低的一同坚持良好的作用;四是模型部署。

未标题-1-25.png

极致修正的场景实战

在六月份NBA决赛直播时,百视TV希望经过运用咱们的窄带高清2.0修正生成技能,来提高他们赛事直播的质量。如中间这个截图所示,截图的上半部分是主播直接推过来的视频作用,下半部分是经过极致修正生成之后的作用。

未标题-1-29.png

可以看到修正之后,Youtube这几个字母边际会更明晰、洁净,不再浮躁。其他篮球场景相关的,比如球员身后的数字及球员的身体概括,也会变得特别明晰。别的也有些生成作用,比如地板上有生成一些纹路,使全体的赛事观感大大提高。

除了自研的算法,阿里云也有一些高校合作项目,字幕修正便是其间一个合作项意图作用。可以看图中右下角实际修正字幕例子。该字幕取自一个老片MV,上面一行是原始MV里的字幕,可以看到“话”字的言字旁几条横笔画会有一些粘连,此外文字边际还有许多的噪声。下面一行是经过字幕修正之后的作用,可以看到会变得很洁净、明晰。

未标题-1-30.png

未来,窄带高清技能也将继续晋级,经过算法才能进一步提高修正生成作用、降低码率和优化本钱,经过打通前后端的处理,以及探索落地更多沉浸式场景,如:针对VR范畴的窄带高清。与此一同,该项技能也将应用于更多的尖端赛事活动,在本钱优化谐和之上,完成视效体验的全新晋级。


「视频云技能」你最值得重视的音视频技能大众号,每周推送来自阿里云一线的实践技能文章,在这儿与音视频范畴一流工程师沟通商讨。大众号后台回复【技能】可参加阿里云视频云产品技能沟通群,和业界大咖一同探讨音视频技能,获取更多行业最新信息。