作者:vivo 互联网算法团队- Shen Jiyi

本文依据沈技毅教师在“2022 vivo开发者大会”现场演讲内容整理而成。

混排层负责将多个异构行列的成果如广告、游戏、天然量等进行交融,需求在上下游和事务多重束缚下获得最优解,相对杂乱和难以操控。本文首要从事务、模型等角度介绍了vivo广告战略团队在信息流和运用商铺混排上的一些探究和考虑。

一、布景介绍

异构混排在vivo互联网的技术实践

首要介绍一下什么是混排。所谓混排,如图所示便是需求在保证用户体会前提下,经过对不同行列中的异构内容进行合理混合,完成收益最优,更好的服务广告主和用户。

混排的中心应战体现在:

  1. 不同行列item建模方针不同,难以直接比照。比如有的行列依照ctr建模,有的行列依照ecpm建模,无法直接比照。

  2. 候选行列常受到大量产品规矩束缚,常见的有比如距离位的束缚、保量、首位等束缚。

  3. 由于候选行列由上游各方精排算法发生,由于事务束缚混排时往往不能修改候选行列的序,也便是需求完成保序混排。

本次介绍的首要是vivo信息流和商铺场景的混排实践。

异构混排在vivo互联网的技术实践

vivo的信息流场景,包括像浏览器、i视频、负一屏等,他的特色是场景众多,下拉深度较高,广告形式多样,用户个性化需求较强。而关于商铺场景,是一个全体偏垂直的场景,

它触及到广告、游戏、天然量多方均衡,需求在保量和用户体会等严格要求下,获得归纳最优解。后续咱们将对这2个场景的特色打开逐一介绍。

二、信息流混排实践

2.1 信息流混排介绍

咱们开始介绍下信息流场景的混排实践。

异构混排在vivo互联网的技术实践

关于信息流场景来说,如下图所示,混排侧所首要处理的问题是内容行列与广告行列的混排问题。也便是如安在平衡好用户体会和广告主利益的情况下,将广告刺进到合适的方位。

异构混排在vivo互联网的技术实践

关于传统信息流媒体来说早期的首要混排方法可能首要是以固定位模板为主。也便是运营人工定下广告与内容的刺进联系,简略直接。

但也带来了三个明显的问题

  1. **用户方来说,**广告在偏好场景与非偏好场景同等概率出现,有损用户体会。

  2. **事务方的角度出发,**流量未精准投进,事务服务效率低,广告主体会差。

  3. **渠道方,**资源错配导致渠道资源糟蹋。

2.2 业界计划调研

接下来介绍下业界常见的几种处理计划。

异构混排在vivo互联网的技术实践

以某职场交际渠道的计划为例。它将优化方针设定为在用户体会价值大于必定值的前提下最优化营收价值。关于待刺进广告,将用户体会货币化,与商业化价值加权衡量全体价值。

如果全体价值大于用户体会价值时投进广告内容,否则投进产品内容。此外在投进时还会依据右图所示考虑距离等束缚。

他的办法简略直接,许多团队选用相似的计划获得较好作用。但该计划只考虑单一item价值,未考虑item间相互影响,缺乏长期收益的考虑。

异构混排在vivo互联网的技术实践

接下来介绍的是某小视频的计划,他们选用强化学习的办法进行混排。该计划将信息流混排问题抽象为序列刺进问题,将不同广告关于不同槽位的刺进情况抽象为不同action,经过强化学习进行挑选。在考虑奖赏规划时交融了广告价值(如收入等)与用户体会价值(比如下滑与脱离)。经过调理超参对两者进行平衡。

可是该计划对工程依赖较高且论文中已离线测验为主,缺乏线上的剖析。而且该模型只考虑单广告刺进,未考虑多广告情况。

具体到vivo信息流场景的迭代,混排迭代包括固定位混排,Qlearning 混排和深度解空间型混排三个阶段。

异构混排在vivo互联网的技术实践

全体思路是希望在Qlearning阶段经过简略的强化学习计划累积样本,快速探究收益。后续晋级为深度学习计划。

2.3 Qlearning 混排

异构混排在vivo互联网的技术实践

上面是强化学习的根本流程,强化学习最大的特色是在交互中学习。Agent在与环境的交互中依据获得的奖赏或惩罚不断的学习常识,愈加习惯环境。state,reward和action是强化学习中最为关键的三个要素,后续详细打开。

vivo信息流的Qlearning混排机制有什么优点呢?首要它会考虑全页面收益,并考虑长期收益,契合多刷场景诉求。此外Qlearning模型可以小步快跑,堆集样本一起,快速验证作用。

当前全体体系架构,混排体系坐落adx后,接收到内容行列与广告行列后,经过Qlearning 模型下发调权系数,对广告进行调权,叠加事务战略后,生成交融行列。而用户行为也会触发Qlearning模型更新。

Qlearning模型运转原理如图,首要初始化qtable,然后挑选一个action,依据action所得到的reward进行qtable的更新,而在丢失函数既考虑短期收益也考虑长期收益。

在vivo的实践中,在奖赏规划上,咱们归纳考虑时长等用户体会指标与广告价值,两者进行滑润后,经过超参进行权衡。在动作规划上,一期选用数值型的方法,生成广告调权系数,作用于广告精排得分,与内容侧进行混合,从而完成混排。

在状况规划上包括用户特征、上下文特征、内容侧特征和广告侧特征四个部分。像统计特征和上下文特征等对Qlearning模型有较大影响。

在vivo信息流场景中,Qlearning混排获得了较好的作用,已经覆盖绝大部分场景。

2.4 深度方位型混排

异构混排在vivo互联网的技术实践

Qlearning混排存在必定的局限性:

  • Qtable结构简略,信息容量小。

  • Qlearning模型可运用特征有限,难以对如行为序列等详尽化建模。

  • 当前Qlearning混排依赖于上游打分,上游打分动摇,会引发作用震动。

为了处理Qlearning的问题,咱们研发了深度方位型混排。在混排机制上由本来的数值型晋级为直接生成方位的方位型混排,而在模型本身咱们由Qlearning晋级成了深度学习。

这带来3个优点

  1. 与上游打分化耦,大大提高混排稳定性

  2. 深度网络,可容纳信息量大

  3. 可以考虑页面间item相互作用

咱们全体模型架构为业界主流相似双塔dqn的模型架构,左塔首要传入的一些state信息包括用户属性、行为等,右塔传入action信息也便是解空间排列基础信息。

值得一提的是咱们会将上一刷的解作为特征融入到当前模型中。

异构混排在vivo互联网的技术实践

新的解空间模型action空间更大,天花板更高。但稀少action难以学习充沛,易导致预估禁绝。为了处理这个问题,咱们在线上添加小流量随机试验,提高稀少动作命中率,丰厚样本多样性。

序列特征作为模型最为重要的特征之一,也是强化学习模型描写state的重要特征之一,咱们对序列做了一些优化。在序列attention模块,为了处理用户前史兴趣与待刺进广告的匹配程度,咱们经过transformer描写用户行为序列信息;之后经过待刺进广告与序列attention操作,描写匹配程度。此外在序列match模块,咱们引进先验信息,发生强交叉特征,对attention进行弥补;关于match权值经过CTR、是否命中、时刻权重、TF-IDF等方法进行信息提取。

异构混排在vivo互联网的技术实践

三、运用商铺混排

3.1 商铺混排介绍

接下来咱们介绍运用商铺混排模块。

异构混排在vivo互联网的技术实践

商铺混排的中心问题是完成广告行列与游戏行列的混排。而就像图中所示广告与游戏排序分界说方法不同,难以直接比照。此外联运游戏回收周期长, LTV难以估准,即使悉数依照ecpm排序也较难保证作用。

异构混排在vivo互联网的技术实践

整理下运用商铺面临的中心应战

  1. 触及事务方较多,需在满意用户体会、广告、游戏三方要求情况下完成归纳最优。

  2. 商铺混排往往有保量等相关诉求,保量无法相关到全体收益,追求全体收益必然改动保量的成果,并发生相互抵触。如安在既满意保量的情况下,又完成全体最优?

  3. 不同于信息流,商铺为高成本消费场景,用户行为稀少。许多用户很长时刻内才会有一次下载行为。

  4. 游戏LTV预估是职业的难题,如安在混排侧为游戏LTV提供必定的容错空间?

异构混排在vivo互联网的技术实践

回到vivo运用商铺混排,全体迭代包括固定位混排、PID保量、带束缚混排、混排精细化分流4个阶段。

3.2 PID保量

异构混排在vivo互联网的技术实践

首要介绍PID的计划,PID最开始来源于自动化领域。初期为了相应事务侧诉求,参考业界主流计划,经过对广告和游戏进行保量,开始完成混排才能。但计划较为简略,且PID难以相关到收益方针,难以完成收益最优。

3.3 带束缚混排

异构混排在vivo互联网的技术实践

保量和收益最大化存在必定程度的抵触,满意保量束缚下,怎么完成事务归纳收益最优是最大难点。

vivo商铺混排采取流量拆分微调的思路,在PID保量后接重排,归纳考虑用户体会、广告收入、游戏价值三者的平衡点。针对重排与PID保量抵触,重排只对部分方位收效,使得在部分流量如首屏下可以进行收益的探究,而又能满意保量需求。

异构混排在vivo互联网的技术实践

在重排层咱们一开始考虑沿用信息流的混排计划,运用强化学习进行混排。可是存在2个问题

  1. 重排只对首刷收效,缺乏常规强化学习的状况搬运。

  2. 商铺场景比照信息流场景触及事务方较多,怎么考虑用户体会、广告收入、游戏价值三方的权衡 是一个更为杂乱的问题。

为了习惯商铺场景的特色,咱们做了一些适配和优化

  1. 首要关于loss。有别于传统强化学习,由于商铺场景行为稀少且只对首屏收效,缺乏状况搬运,咱们将gamma置为0,全体变为相似监督学习的状况,提高体系稳定性。

  2. 在reward的规划上咱们归纳考虑了整个页面游戏收入、广告收入和用户体会等多方因素完成收益最优。

  3. 在action规划上一期仍然运用数值型计划。

该版别在vivo商铺混排获得较好作用,已经全量。

3.4 混排精细化分流

异构混排在vivo互联网的技术实践

在带束缚重排基础上,咱们考虑能否进一步进行优化

  1. 首要重排候选集由PID保量发生,非全局最优。

  2. 其次候选集为全广告或全游戏时,当前重排无收效空间(这块线上占比过半)。

那么怎么满意保量下更进一步完成收益最优?

咱们开始测验混排精细化分流,关于部分分支去除保量束缚,进行束缚放开。使得PID聚集于满意保量等事务诉求,模型聚集探究更优空间。

当前版别,当一个恳求到来时,咱们会依据分流模块判断是否为高质量流量,关于高质量流量经过混排模型探究收益,关于低质量流量选用PID进行保量,并将最终成果交融。这样重排战略能在部分流量对全恳求收效,全体的保量也在正常范围。

现在咱们当前测验过的分流方法有商业价值分流、游戏偏好分流、广告位分流、体会机制分流等。

异构混排在vivo互联网的技术实践

具体到重排模型上,咱们也做了一些迭代。当前重排层,数值型模型存在一些问题:

  • 数值型混排依赖于上游打分,上游误差改变影响混排模型准确性。

  • 未考虑上文信息和方位信息等listwise因素的影响。

为了处理问题:

  • 咱们选用选用生成式模型替代数值型模型,直接生成混排成果,与上游打分化耦。

  • 借鉴context-dnn思想,咱们选用context-aware方法,在生成方法和label规划中融入上下文影响。

该模型在试验流量上收益比照原模型更为明显,且不受上游打分影响,更为稳定。

四、未来展望

关于未来的展望,包括4个方面:

  1. **模型优化:**深度优化混排,更精细化建模,融入更多实时反馈信号,提高模型作用,更为个性化建模。

  2. **跨场景联动:**测验跨场景联动混排等计划,完成最优兑换比,与全场景最优。

  3. **一致范式:**各场景一致建立序列生成和序列评价的一致混排范式。

  4. **端上混排:**测验端上混排,更为及时捕获用户兴趣,提高用户体会。

异构混排在vivo互联网的探究过程中遇到了较多的应战,也获得了必定的收益。

欢迎感兴趣的同学留言沟通讨论。