咱们好,我是对白。

前两天刚好刷到KDD2022的一篇文章,是介绍快手在它们短视频上的一项引荐重排新算法,不只在用户观看时长和视频播映量都有了较大提高外,用户观看视频的标签数也有了明显增长,这说明该算法同时兼具相关性和多样性两点

为了测试其作用,我趁便下载了一下快手这款app,于是就出现了这篇文章的封面:左图是用户冷启动推给我的第一个短视频,一个穿着短裙的小姐姐,紧接着第二个短视频便是右图的另一位小姐姐,然后面的几个短视频也出现了电影、美食等其它方向,**探究和使用(Exploit&Explore)**做得都很不错,咱们能够去快手上体验一下。

快手提出的这款新算法叫FDSB,是一款通用的重排序结构,使用用户物品的偏好得分与用户物品依据不同特征的相关性、多样性得分从而对引荐列表中的物品重排序。

试验成果来看,FDSB在用户观看时刻和视频播映方面取得了明显的改进,这表明用户粘性得到了提高;其次,用户观看视频的标签数量添加也说明FDSB能够引荐更多样性的视频。

快手这款推荐新算法,我爱了~

下面就带咱们一起领略这个算法的美妙之处~

论文标题:Feature-aware Diversified Re-ranking with Disentangled Representations for Relevant Recommendation

论文来源:快手&人大,KDD2022

一、FDSB中心思维


快手这款推荐新算法,我爱了~

本文由快手和人大发表于KDD2022上。在详细看论文模型细节之前,咱们来看一下相关引荐的使命描绘。因为要重视用户爱好、相关性与引荐物品的多样性,咱们能够自然而然地为相关引荐写出方针排序公式:

其间,用户偏好得分咱们能够使用现有模型核算得到。困难在于后面两项:相关性和多样性。为模型中引进特征这一重要因素,咱们将相关性和多样性定义为:

如上剖析,能够将相关引荐的多样化再排序描绘为一个依据物品embedding和特征的组合优化问题。因为这是一个NP-hard问题,选用贪心算法 ,将全体方针分解为单个物品方针:

二、算法细节


关键一:如何处理物品特征冗余问题?

快手这款推荐新算法,我爱了~

因为物品的特征信息能够从不同潜在方面描绘该物品的特性,依据解耦的思维,咱们能够将这些特征,依据所描绘物品的不同方面分解为不同的表明。咱们将称之为对应于物品不同方面的细粒度特征感知表明,后统称为别离表征。

为了学习别离表征,论文选用一种依据多头自注意力机制的办法DAE。详细地,以物品原始特征作为value,以物品embedding与特征的投影向量作为query和key来核算注意力分数,详细公式为:

这些别离表征反映了物品的部分特征,因而应该接近物品的全体embedding表明。详细地,选用MSE与InfoNCE两种alignment loss来提取从物品embedding到详细特征别离表明中的信息

其间,。咱们还记得,物品的别离表征能够从不同的潜在方面反映该物品的特性。而为了完成从解耦的不同潜在方面中能够捕获不同的语义特征,再引进orthogonalization loss

咱们知道物品的相关性和多样性本质上是彼此矛盾的,即多样性更强时,相关性就更弱。然而咱们的相关引荐既要保证所引荐的物品与触发物品之间的相关性,又要保证必定的多样性。因而当多样性体现得更强时,咱们应该提高相关性的权重,反之亦然,从而完成二者的平衡。

关键二:在相关引荐中,应该如何完成物品之间的相关性与多样性的平衡?

为了在二者之间达成一个平衡,论文设计了一种相关性-多样性相关权重机制,咱们为两个性质别离引进两个可学习的系数向量,即:

其间,为累计相关性。咱们的方针是为用户挑选个相关物品,详细地,选用Greedy Selection的方案对引荐列表中的物品进行再排序

当选定第一个物品时,因为没有其他备选物品,所以不需考虑与备选物品间的多样性问题,这儿只用核算单物品的相关性得分,即:

当已选物品数量大于1时,则需要核算相关性和多样性得分:

其间,多样性函数遵从MMR办法,即,减去所选物品和候选物品之间的最大类似度作为多样性得分。

模型的完好算法为

快手这款推荐新算法,我爱了~

模型的复杂度与普通MMR适当,其间时刻复杂度为,空间复杂度为。

三、试验成果


3.1 一个关于别离表征的案例解析

为了说明FDSB是如何将物品特征分解为不同方面的,论文的试验部分给出一个有趣的案例剖析:随机抽取一段视频,将每个特征解耦得到的方面的注意力权重可视化,如下图。

从图中,咱们能够看到,视频的特征依据语义的不同被分解为了不同方面,第一个方面侧重于抽象特征,如**“动物”和“野生动物”**;第二个方面捕捉了更加细粒度的信息,如“大熊猫”和“熊猫”;第三个方面则提取了一些不寻常的特征,如图中的“Metal Eater”为“吞金兽”,是熊猫的昵称。还有一个”pets“是视频中的剩余标签,并没有被一切的方面捕捉到。

这个比如定性地说明了论文所提出的DAE模型在学习别离表征方面的有效性

快手这款推荐新算法,我爱了~

3.2 在线布置和A/B测试

为了进一步验证FDSB的有效性,该模型被布置在在线快手APP的”更多相关视频“功能上以验证整个作业流程。其间,选用视频标签作为特征。详细的作业流程如下图:

快手这款推荐新算法,我爱了~

在快手的实际应用场景中从(1)观看时刻,(2)视频播映和(3)观看的视频标签三个目标评价该结构的功能,前两个目标反映用户的满意度,第三个目标通常用于多样性。

详细的成果如开篇描绘,FDSB不只能够提高用户忠诚度,也能够引荐更多相关视频。

3.3 试验成果

与多个模型比照,能够看出FDSB的作用提高明显,在Recall与MRR别离提高了25.2%与18.3%。此外,在相关性的评价目标和多样性的评价目标中作用也不错。

快手这款推荐新算法,我爱了~

四、总结


论文提出了一种用于相关引荐的依据别离特征的再排序结构FDSB。模型详细包含两个部分:(1)用于完成特征别离的自注意力办法DAE;(2)一种用于平衡候选物品相关性与多样性的策略。模型具有必定的新颖性且作用不错,咱们不妨能够参考一下它的中心思维与网络结构。

文末提出两个问题供咱们考虑:

  • 除了文中所提的物品特征,是否有更好的辅助信息能够将触发物品与引荐多样性结合起来?

  • 你认为依据特征感知的细粒度引荐在其他引荐场景中是否有应用前景?以及,是否有其他高效的依据特征的别离表征解耦办法?

关于我

我是对白,清华核算机硕士,BAT算法工程师。欢迎重视我的微信公众号: 对白的算法屋,日常分享编程经验和技术干货,帮助你少走弯路!还能够加我微信,领资源和进交流群。