转转推荐场景EE题解决思路

1 导言

引荐体系的方针主要包括两个方面：Exploitation 和 Exploration

在Exploitation中最重要的是 Relevance ( 相关性 ) 的核算，其底子思维是根据用户浏览、观看和保藏的内容等用户行为数据估测该用户或许采纳的行动。常见的引荐算法大多是根据针对该方针的优化而展开的。然而用户行为数据在现实中很或许过少、不足以全面地体现用户的爱好。这一现象在冷启动等场景中很常见。此刻引荐体系还有责任挖掘用户尚未表现出的爱好，并且防止因为现有行为数据过少而导致推送内容相似性过高的情况。这就需要引入Exploration。

2 Exploitation

排序环节中相关性探究现在主要以debias为主。

2.1 bias

引起模型bias的原因许多，主要包括：

selection bias

用户遍及倾向于自己喜爱或者讨厌的item进行点评，比如豆瓣评分。
exposure bias（sample selection bias）

用户只能看到曝光的item并产生交互，但数据中没交互的item不代表用户不喜爱，或许是没曝光，这一点欠好区分。
- 1）引荐体系决议了展示哪些items给用户
- 2）用户自动找到查找找到感爱好的项目
- 3）用户本身的背景。朋友、地理方位等
- 4）热门的items更容易被用户看到
conformity bias

用户行为会受到他人影响，咱们观测到的并不一定是用户实在偏好。用户倾向于和集体喜好一致，用户看到大众统计数据之前和之后，行为分布有很大不同。
position bias

用户在不同方位上的交互倾向和点击偏好不同。

用户趋向于选择排位靠前的 items，因而实践产生交互的 item 并不一定相关性很强。

许多场景也倾向于将盈余高而用户爱好较低的item放在前面吸引用户点击，以提升相关item的交互行为，如某度。

2.2解决方案

1)特征输入

以position bias为例,在训练时将 position 当作一个特征进行输入，在预测时以一个默认值进行输入，即假设一切item出现在同一方位预测点击率，比照用户偏好。

2)bias Tower

独自设置一个shallow tower（Youtube Recsys19）来预测偏置，输入的特征是一些与偏置相关的特征。在终究的 sigmoid 前，将shallow tower的输出成果加到logit中，线上预估时方位误差特征取值为missing。

3）贪婪算法

在预测时将每个item在一切方位都预测一次，再经过贪婪算法寻求最优组合（Deep Position-wise Interaction Network，SIGIR 2021）

3 Exploration

此部分一般会被归为重排序阶段，现在以解决多样性为主。

行列式点进程DPP算法（Fast Greedy MAP Inference for Determinantal Point Process to Improve Recommendation Diversity，NIPS2018）以为如果两个商品的相似性过高，用户或许点击一个之后对另一个的点击需求就会下降。

经过构建矩阵来核算每一个子集的行列式值，该值能够理解为用户对引荐列表的满意程度，受到相关性和多样性两个要素的影响。

矩阵能够表明为

LY=(LiiLijLjiLjj)L_Y = \begin{pmatrix} L_{ii} & L_{ij} \\ L_{ji} & L_{jj} \\ \end{pmatrix}

矩阵元素构建如下：

$ce{L_{ii} = q_i^2}$

$\ceLij=∗qi∗qj∗exp(−Dij22)\ce{L_{ij} = {\alpha} * q_i * q_j * exp\left(-\frac{D_{ij}}{2\sigma^2}\right)}$

其间 $ce{q_i}$ 为相关性方针， $ce{D_{ij}}$ 为多样性方针。

$\ceqi≈p(yi=1∣featureofitemi)\ce{q_i \approx p(y_i=1|feature of item i)}$

$\ceDij=distance(itemi,itemj)∈[0,+∞)\ce{D_{ij} = distance(item i, item j)\in[0, +\infty)}$

$\ce、\ce{\alpha、\sigma}$ 为超参，当 $\ce\ce{\alpha}$ 处于0到1之间且 $\ce\ce{\alpha}$ 变小时，相当于咱们整个行列式值被缩小，所以多样性变好；相反， $\ce\ce{\alpha}$ 大于1且变大时，多样性变差；alpha=1时为标准高斯径向基函数。

该问题的求解明显是个NP-hard问题，因而可用贪婪算法进行求解。

一起因为 $ce{L_Y}$ 是半正定矩阵，因而能够经过矩阵分化得：

$ce{L_Y=VV^T}$

其间 $ce{V}$ 是下三角矩阵。

经过以上优化，每次逐步添加一个item，从而取得终究的引荐列表，使得全体求解复杂度从 $ce{O(y^3)}$ 成功降到了 $ce{O(y)}$ ，但实践核算中需确保 $ce{L_Y}$ 矩阵的半正定，论文中给出的办法是若L的特征值为负值，则将该值替换为0。详细求解进程如下：

盈余场景则会归纳考虑每个item的盈余信息，详细可参阅转转商业化OCPC产品护航之路

4 总结

bias类型许多，可是并不是一切的bias都需要去除，例如电商场景下的流行度这种本身就会影响用户点击的bias，可是这种剖析办法能够引导咱们更好的进行特征挖掘和方针优化；多样性表面上看会下降引荐列表的相关性，但从试验成果上来看，反倒会对业务方针有促进作用，说明用户对多样性还是有很大的需求。

> 转转研制中心及业界小伙伴们的技能学习交流平台，定期分享一线的实战经验及业界前沿的技能话题。 > 关注公众号「转转技能」（归纳性）、「大转转FE」（专心于FE）、「转转QA」（专心于QA），更多干货实践，欢迎交流分享~

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。