本文内容出自阿里文娱AI大脑北斗星团队,研究成果已发表在ACMMM 2022

论文名:Enlarging the Long-time Dependencies via RL-based Memory Network in Movie Affective Analysis

作者:张杰、赵寅、钱凯

布景

三流的导演拍故事,一流的导演拍情绪。纵观古往今外,经典的高分电影之所以经久不衰,无一不是因为引发了观众心理上的共情。尤其是在快节奏、高压力的现代生活中,观众观看影视剧的主要目的便是为了寻求情感上的满意与释放。因而,归纳视听言语等因素,搭建一条合适的“情感线”是电影成功的要害。那么,如果咱们能够在电影上线之前,提前猜测电影关于观众的情感效应,刻画出这条“情感线”,关于电影的评价定级、剪辑优化等方面无疑有着巨大的协助。为此,咱们打开了电影情感效应猜测方面的研究工作。

简介

电影情感效应剖析旨在猜测观众在观看电影时所发生的情感,其在电影内容理解、高潮检测、质量评价、情感多媒体检索等方面有着重要的应用。在情感核算范畴,情感的标签能够分为两种:1是离散的情感标签,如开心、伤心等等;2是接连的情感模型,如使用最多的二维VA情感模型(如图1所示),其间Valence代表的是情感的正负,Arousal代表的是情感的强度,两者的取值均在-1到1之间。相比于离散的标签,接连的情感模型能够更细致全面地描述情感的各个维度,在学术界和工业界有着愈加广泛的应用。因而,咱们选用了VA情感模型,主要方针便是依据影视剧的内容,猜测观众的VA情感。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

图1 VA情感模型

要正确地猜测观众的情感,上下文信息非常要害,同样的一段场景在不同的情景下可能会发生不同的情感效应,比方同样一段打斗的画面,在犯罪剧中是令人紧张的,在喜剧中则可能是幽默风趣的。因而,有用地建模上下文信息关于电影的情感效应猜测至关重要。

为了建模上下文信息,最常用的经典模型能够分为两种:循环神经网络(如LSTM[1]等)和Transformer[2]。然而,在面对电影这种动辄几千秒的长序列时,这些时序模型存在着一定的缺点:

a. 循环神经网络的回忆才能有限,难以建模长时依靠

b. 循环神经网络选用的BPTT的更新办法存在梯度消失和爆炸的问题,此外其需求存储大量的中间变量,不适用于特别长的序列

c. Transformer的核算量跟着时序的添加呈平方级添加,同样不适用于特别长的序列

受限于常用时序模型的这些缺点,目前大部分的计划都是将电影切分红小片段,然后独登时去猜测每个片段的情感。然而这种办法忽略了片段之间的联系,无法建模长时序的上下文信息,关于正确理解电影内容、判别电影情感的全体走势有着一定的阻止。

为了处理这些问题,咱们提出了根据强化学习的回忆网络,其核心在于使用回忆模块存储前史信息,并使用强化学习得到回忆模块的更新战略。如图2所示,咱们办法存在以下优势:

a. 通过回忆模块提升了模型的回忆才能

b. 使用强化学习的时序差分法,减小了核算量和存储量,避免了梯度消失和爆炸的问题

c. 使用强化学习中的价值网络和战略网络,有用捕捉长时序依靠

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

图2 根据强化学习的回忆网络优势示意图

为了验证咱们办法的有用性,咱们在多种使命的多个数据集上进行了试验,成果均达到了SOTA。

下面咱们将对所提计划打开具体的介绍。

计划

模型的全体结构如图3所示:给定一个电影,咱们将其划分红接连的片段C=c1,ct,⋯,cTC={c_1,c_t,⋯,c_T},关于一个电影片段ctc_t,咱们提取多模态特征,并将这些特征编码成向量表征ete_t。然后向量表征ete_t和前史回忆信息mt−1m_{t-1}组成状况输入到战略网络中去,发生一系列的动作ata_t,这些动作会用来选择性的更新回忆模块中的内容。然后根据更新后的回忆模块mt和向量表征ete_t,作出终究的猜测yty_t。猜测成果的差错会作为奖赏rtr_t,辅导价值网络Q学习未来的希望奖赏,价值网络则会用来辅导战略网络学习长时序依靠。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!
图3 模型全体结构

下面咱们将对模型中的特征提取模块、根据强化学习的回忆网络部分、以及模型练习相关的内容进行具体的介绍

特征提取

为了得到富含情感信息的表征,咱们提取了5种模态的特征:使用VGGish[3]提取音频特征;使用布景音乐情感模型提取bgm情感特征;使用在Places365[4]上预练习的VGG16[5]提取场景特征;使用OpenPose[6]的骨干部分提取人物姿势特征;使用在RAF[7]上预练习的Xception[8]提取人物表情特征。咱们将这些模态的特征在时间维度上对齐并做concat操作,然后使用LSTM来交融时序信息,并取终究一个时间步的躲藏状况作为电影片段的向量表征。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

K代表的是每个电影片段的帧数,M代表的是模态的总数,f1:k:mtf_{1:k:m}^tRKdmR^{Kd_m} 代表的是提取的第m个模态的特征,[⋯]代表的是concat操作,LSTM−1LSTM_{−1}代表的是取LSTM终究一个时间步的躲藏状况。

根据强化学习的回忆网络

根据特征提取部分得到的电影片段的向量表征,咱们使用回忆模块和根据强化学习的更新战略来捕获长时间依靠。

回忆模块

回忆模块是一个可读可写的矩阵mtm_tRNdR^{Nd},用来存储前史信息以增强模型的回忆才能,其间N代表的是回忆的个数,d代表的是回忆的维度。在电影的起始时间,回忆模块的内容会被初始化为可学习的变量,跟着电影的进行,回忆模块中的内容会在更新战略的控制下逐渐更新。

为了使用更新后的回忆模块得到终究的猜测成果,在时间t,咱们核算得到片段表征ete_t和更新后回忆模块mtm_t的每个回忆之间的类似度,并使用这个类似度对回忆模块的内容进行加权求和,然后在通过一个全衔接层得到终究的猜测成果。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

其间, wtw_t(n)代表的是第n个回忆的权重,wtw_t=softmax(FC([ete_t,mtm_t])),p_p代表的是猜测相关的参数。

根据强化学习的更新战略

不同于传统回忆网络中的写操作,咱们规划了一个根据强化学习的更新战略来更新回忆模块的内容,以便在更新过程中能够更有用地考虑长时依靠性。因为咱们规划的动作空间是接连的,咱们选用了深度确定性战略梯度算法(DDPG[9]),其包括的根本元素如下:

状况

状况中需求包括决议计划所需求的悉数信息,这儿咱们将电影片段的向量表征和回忆模块的前史信息界说为状况st={ete_t,mt−1m_{t−1}}

动作和战略网络

参阅NTM[10]中的写操作,咱们将动作规划成了4部分ata_t={atatta_t^{att}, atfa_t^f, utcu_t^c, atia_t^i}:atatta_t^{att}RN1R^{N1}代表的是每个回忆需求更新的程度;atfa_t^fRNdR^{Nd}决议每个回忆中需求被遗弃的部分;utcu_t^cRNdR^{Nd}代表的是新输入的内容;atia_t^iRNdR^{Nd}代表的是新内容中需求被保存的部分。根据这些动作,回忆模块的更新过程如下式所示:

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

其间1代表的是全1的矩阵。 为了得到这些动作,咱们规划了相应的战略网络ata_t=(sts_t_)

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

奖赏和价值网络

因为咱们的使命是回归使命,咱们把奖赏界说为rtr_t=−mae(yty_t,gtg_t)。关于分类使命,能够选用猜测与真值的对数似然作为奖赏。 为了猜测未来的希望奖赏,咱们规划了相应的价值网络。不同于传统的动作价值网络,咱们选用了后状况[11]价值网络Q(s _t)(如图4所示),其间后状况为s _t={ete_t,mtm_t}。与动作价值网络相比,后状况价值网络的输入空间大幅减小,练习功率更高更稳定。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

图4 价值网络结构

模型练习

为了确保模型练习的稳定性,咱们针对性的规划了方针函数和探究战略。

方针函数

咱们遵从DDPG的算法流程,迭代地更新价值网络和战略网络,价值网络的方针函数如下所示:

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

其间代表的是奖赏衰减因子。由上式可知,价值网络Q的方针值rtr_t+Q_Q(et+1e{t+1},T(mtm_t,(st+1s_{t+1})))的核算会用到价值网络本身,这会导致练习的不稳定性。因而,遵从DDPG中的办法,咱们规划了方针价值网络Q′和方针战略网络′,他们的结构和对应的价值网络和战略网络一致,权重的更新选用的是滑动均值的办法:Q′/′_{Q′/′}=Q/_{Q/}+(1−)Q′/′_{Q′/′}。由此,价值网络的终究方针值为:rtr_t+_Q′(et+1e_{t+1},T(mtm_t,′(st+1s_{t+1})))。

原始的战略网络的方针函数为:maxmax_{}Q(ete_t,T(mt−1m_{t−1},(sts_t))),为了同时更新战略网络部分和成果猜测部分,咱们对方针函数向前打开了一个时间步,终究的战略网络和猜测部分的方针函数如下所示:

max,pmax_{,p}(rtr_t+Q(et+1e_{t+1},T(mtm_t,(st+1s_{t+1}))))在练习过程中,两个方针函数迭代的进行更新。

探究战略

为了进一步确保练习的稳定性,防止模型陷入到局部最优或者彻底不收敛的窘境,咱们针对动作规划了相应的探究战略,具体如下所示:

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

其间N(0,0.05)代表的是均值为0,方差为0.05的高斯噪声,clip(x,a,b)clip(x,a,b)clip(x,a,b) 代表的是把x裁剪到[a,ba,b],ZtattZ_t^{att}代表的是标准化因子。

成果

SOTA比照

为了验证咱们办法的有用性,咱们在多种使命的多个数据集上打开了试验,比方电影情感猜测使命的LIRIS-ACCEDE[11]数据集、音乐情感猜测的PMemo[12]数据集、视频摘要的Tvsum[13]和Summe[14]数据集,试验成果相比于SOTA办法均有大幅的提升。

表1 LIRIS-ACCEDE数据集成果比照

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

表2 PMemo数据集成果比照

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

表3 Tvsum和Summe数据集成果比照

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

消融试验

回忆模块尺度的影响

为了捕获长时间依靠,满足的回忆容量至关重要。为此,咱们针对回忆模块的尺度打开了试验。如图5所示,跟着回忆模块尺度的添加,模型的作用逐渐提升,当回忆容量添加到一定程度时,模型作用趋于稳定,甚至会因为过拟合而有所下降。在咱们的试验中,在回忆模块的尺度为10时,模型作用最好。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

图5 回忆模块尺度试验成果

强化学习的有用性

为了验证强化学习的有用性,咱们规划了2个基础办法进行比照试验:1)使用回忆网络,对每个电影片段独立的进行猜测。2)使用TBPTT算法对回忆网络进行优化。如表4所示,根据强化学习的办法取得了最好的作用。

表4 不同办法试验成果

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

回忆模块更新过程的可视化

咱们对回忆模块的更新过程进行了可视化,具体如图6所示。图(a)的横轴为时间维度,纵轴代表不同的回忆方位,色彩的深浅代表回忆更新的程度。图(b)是图(a)中第7个回忆的更新程度同情感标签valence的比照曲线,能够证明回忆模块中存储的是情感相关的特征。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

图6 回忆模块更新过程

不同模态数据的重要性

咱们针对不同的模态组合进行了试验,如表5所示,就单模态而言,视觉元素中的场景模态最为有用。归纳所有模态能够确保情感信息的齐备性,取得了最好的作用。

表5 模态试验

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

实例剖析

咱们给出了模型在测试集的几部影片上的猜测成果,如图7所示,能够看到,咱们模型的猜测成果不仅在局部的改变趋势上与真值挨近,在全局的改变趋势上也与真值一致,这充沛表明晰咱们的办法在建模长时信息方面的有用性。

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

图7 模型在LIRIS-ACCEDE测试集上的猜测成果

未来工作

在今后的工作中,咱们希望打开以下的探究: 1.尝试其他强化学习算法。 2.从模态交融下手,规划更有用地模态交融战略。 3.把咱们的办法应用到其他使命上去,如动作检测等等。

参阅文献

[1] Hochreiter, Sepp, and Jrgen Schmidhuber. “Long short-term memory.” Neural computation 9.8 (1997): 1735-1780. [2] Ashish Vaswani, Noam M. Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones,Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. ArXiv abs/1706.03762 (2017). [3] Shawn Hershey, Sourish Chaudhuri, Daniel PW Ellis, Jort F Gemmeke, Aren Jansen, R Channing Moore, Manoj Plakal, Devin Platt, Rif A Saurous, Bryan Seybold, et al. 2017. CNN architectures for large-scale audio classification. In 2017 ieee international conference on acoustics, speech and signal processing (icassp). IEEE, 131–135. [4] Bolei Zhou, Agata Lapedriza, Aditya Khosla, Aude Oliva, and Antonio Torralba. 2017. Places: A 10 million Image Database for Scene Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (2017). [5] Simonyan, Karen, and Andrew Zisserman. “Very deep convolutional networks for large-scale image recognition.” arXiv preprint arXiv:1409.1556 (2014). [6] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh. 2019. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. IEEE transactions on pattern analysis and machine intelligence 43, 1 (2019), 172–186. [7] Shan Li, Weihong Deng, and JunPing Du. 2017. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition. 2852–2861. [8] Franois Chollet. 2017. Xception: Deep learning with depthwise separable convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition. 1251–1258. [9] Timothy P Lillicrap, Jonathan J Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. 2015. Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971 (2015). [10] Alex Graves, Greg Wayne, and Ivo Danihelka. 2014. Neural turing machines. arXiv preprint arXiv:1410.5401 (2014). [11] Deunsol Yoon, Sunghoon Hong, Byung-Jun Lee, and Kee-Eung Kim. 2020. Winning the l2rpn challenge: Power grid management via semi-markov afterstate actor-critic. In International Conference on Learning Representations. [12] task MediaEval 2018. In MediaEval.[6] Yoann Baveye, Emmanuel Dellandrea, Christel Chamaret, and Liming Chen. 2015. LIRIS-ACCEDE: A video database for affective content analysis. IEEE Transactions on Affective Computing 6, 1 (2015), 43–55. [13] Kejun Zhang, Hui Zhang, Simeng Li, Changyuan Yang, and Lingyun Sun. 2018. The pmemo dataset for music emotion recognition. In Proceedings of the 2018 acm on international conference on multimedia retrieval. 135–142. [14] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. 2015. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE conference on computer vision and pattern recognition. 5179–5187. [15] Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. 2014. Creating summaries from user videos. In European conference on computer vision. Springer, 505–520.