简介：红包是电商途径重要的用户运营手法，本文将介绍1688根据端智能技能开发的two-stage红包分发计划。这一计划持续在线上收效，相较于原有算法有显着进步。

一、前语

本文是作者在1688进行新人红包发放的技能计划总结，根据该技能计划的论文《Spending Money Wisely: Online Electronic Coupon Allocation based on Real-Time User Intent Detection》现已被CIKM2020接纳，欢迎沟通纠正！

关于作者

李良伟：阿里巴巴算法工程师，邮箱 leon.llw@alibaba-inc.com
孙刘诚: 阿里巴巴高档算法工程师，邮箱 liucheng.slc@alibaba-inc.com

二、背景介绍

用户权益（包括现金红包、优惠券、店肆券、元宝等，图-1）是电商途径常用的用户运营手法，可以协助途径促活促转化。围绕着权益的技能优化也层出不穷[1,2,3,4,5]。

图-1: 1688新人红包

红包发放作为一种营销手法，其ROI是我们非常关心的一个方针，因为它直接反映了在有限的预算内红包为整个途径促活促成交的才干。优化红包发放的ROI要求我们把红包发到最合适的用户手上。而判别哪些用户合适领到红包需求我们在真实发红包之前判别其时用户的意图。举例来讲，一个购买意图非常明晰、无论是否有红包都会下单的用户显着不合适领到红包；相反，红包对一个优柔寡断、货比三家的用户很有或许起到“临门一脚”的效果。

跟着1688业务的快速开展，每天都会有很多的途径新用户涌入，其间有许多用户在整个阿里经济体的数据都非常稀少，根据惯例手法，我们很难对这种“生疏”的用户进行精准描写。但是，只需一个用户进入了APP，或多或少都会和途径产生相互效果（滑动，点击等），这种在端上实时产生的数据可以协助我们对用户尤其是新用户的实时意图进行精准捕捉，然后结束红包发放的抉择计划。

本文将介绍我们根据端智能的用户意图辨认和智能权益发放计划。

三、技能计划

从数学的视点，权益发放是一个带捆绑的优化问题。优化方针是关心的业务方针（GMV，买家数，转化率等），捆绑一般是预算捆绑，有时也会有其他捆绑比如发放疲劳度捆绑、单个用户领取红包金额捆绑等。

按照之前提到的先辨认用户意图再进行权益发放这一思路，我们提出了一个two-stage的求解计划。在第一阶段，我们根据端智能技能[6]，根据用户实时行为数据，通过瞬时意图辨认网络(Instantaneous Intent Detection Network, IIDN) 辨认出用户其时意图；在第二阶段，我们将优化问题建模成一个多选项背包问题(Multiple-Choice Knapsack Problem, MCKP),并运用[7]提到的primal-dual结构求解。在这儿，我们侧重我们关于IIDN的两个立异点：

1.IIDN最首要检测的用户意图是下单意图，但是实践发现在新人傍边，用户下单的比例是比较小的，这样我们在进行下单意图辨认的时分会面对一个类别不均衡的问题(下单:不下单 = 1:10甚至更低)，这样的类别误差会降低常见的分类器的分类效果[8]。为了解决这一问题，遭到ESMM[11]和seq2seq[10]启示，我们引入了一个辅佐任务：停留意图辨认。我们随后会从理论上验证这一做法

2.我们选用encoder-decoder的结构，灵敏地处理序列化的输入和输出

第一阶段：瞬时意图辨认

图-2: IIDN结构

图-2是IIDN的整体结构,它由Embedding Layer, LSTM layer, Attention Layer, Encoder和Decoder五部分组成。接下来分别介绍。

Embedding Layer

模型的输入首要是实时用户特征和红包特征，用户特征包括实时特征（端上收集到的：点击、加购等）、前史特征（用户核身、年纪等），红包特征现在只参加了面额。这些特征是高度异质的，需求进行一步处理把它们映射到相同的向量空间中。我们选用[9]提到的嵌套技能，把原始的异质特征映射为长度固定的向量，并把该向量作为后续结构的输入。

LSTM Layer

我们红包发放的业务逻辑是：用户在详情页产生阅读行为并回来landing page的时分触发抉择计划模型，判别给该用户发放红包的面额（0元代表不发放）。因为用户通常会产生一系列的详情页阅读行为，因而我们收集到的数据也是高度序列化的。为了更好地描绘序列化数据傍边的时刻依托联络，我们在特征抽取环节选用了Long Short Term Memory (LSTM) 来捕捉这种序列化信息。

Attention Layer

关于LSTM产出的序列化的feature map，我们运用注意力机制抽取傍边的部分和全局依托联络。我们将LSTM每层的输出都通过Attention核算权重并参与毕竟的效果核算。这样的长处是模型不只关注LSTM毕竟层输出，还会关注逐层的输出效果，然后增加模型关于输入信息的感知才干。

Encoder

因为用户实时特征的序列长度不固定，而红包特征和用户前史特征是静态的固定特征，我们需求一种机制来进行有用的特征融合。遭到Natural Language Generation (NLG) 傍边语句生成的启示，我们选用一种seq2seq的结构：包括encoder和decoder，我们将在下一末节介绍decoder。这儿encoder将之前产生的悉数feature map作为输入，通过全衔接层产生一个固定长度的向量，这个向量包括了进行用户意图辨认的悉数信息，并作为之后decoder进行意图辨认的根据。

Decoder

Decoder被用来输出毕竟的意图辨认效果。在最初步，我们的模型只输出用户下单的概率，但是跟着业务的深化，我们发现类别不均衡这一问题给效果猜想造成了不小的搅扰。在进步猜想精度的实践傍边，我们发现了一个风趣的现象：假如在进行下单率预估的时分在特征中参加用户在这次阅读之后是否脱离这一信息，猜想精度会有很大的进步。这引发了我们的思考：用户脱离和用户下单之间存在什么样的联络。随后我们又做了一个实验：进行用户脱离意图辨认，并在特征中参加了用户两小时内是否下单这一特征。实验效果标明参加是否下单这一特征并不能给脱离率预估的任务带来增益。这样的实验效果其实是符合逻辑的：用户可以下单的条件是用户必定要留在APP内不脱离，前者的产生在逻辑上需求依托后者的产生，因而在进行下单率预估的时分参加是否脱离可以为模型供应必定的信息增益；相反，用户是否脱离更多取决于用户其时的心态以及APP能否很好地承接他，用户是否下单并不能影响用户是否脱离。我们可以以为：

由上式可以很天然地推导出下式：

可以看到，在进行下单率预估的时分（P的核算），用户停留意图辨认（S的核算，或者说脱离意图，二者等价）将可以用来作为辅佐任务进步猜想效果。我们的实验也验证了这点。

虽然在我们这一任务傍边，我们只需求猜想停留意图和下单意图，但是在之后扩展的场景中，更多意图也可以被辨认：比如用户去往查找的意图，用户去往新人专区的意图等。悉数意图其实都像下单意图和停留意图一样存在一个逻辑上的先后联络（至少悉数意图的产生都依托于用户不脱离），这样的联络使得我们想到了机器翻译傍边语句生成：后一个单词的生成依托于前一个单词的猜想，这启示了我们在encoder-decoder的基础上选用seq2seq的思维：decoder会先生成S，并在此之上生成P。这样做有两个长处：

1.在必定程度上缓解了我们一初步提到类别不均衡问题：虽然不是悉数用户都下单，但是悉数用户必定会脱离APP，脱离意图辨认并不存在类别不均衡的问题

2.我们这一套意图辨认结构可以扩展到无限多的意图辨认傍边，只需供应先验的逻辑先后联络

我们运用一般的RNN结束每一个意图的辨认。

loss设计

全局的loss是由停留意图辨认和下单意图辨认两个任务的loss相加得到：

其间CE标明穿插熵：

第二阶段：求解MCKP

根据第一阶段得到的实时意图 $P$ 和 $S$ ，我们在这一阶段结束红包的毕竟发放。我们将这一问题建模成一个多选项背包问题，我们作以下定义：

1.j用来索引红包，标明第j个红包，i用来索引用户，标明第i个用户
2.c_j标明第$j$个红包的面额
3.x_{ij} = 1当且仅当第i个用户被发到了j红包
4.\gamma 标明用户停留爱好阈值，我们只给那些停留意图足够低的用户发红包，停留意图假如不够低我们以为他还会持续阅读，因而这次先不发放红包
5.P_{ij}、S_{ij}分别标明第$i$个用户领取到第$j$个红包往后的下单率和停留率
6.B标明全局预算捆绑

运用以上的定义，红包发放问题可以被写作：关于任意的用户，满足S_{ij} <= gamma，我们求解以下最优化问题：

为了求解以上问题，我们选用[7]提到的primal-dual结构。定义alpha和beta_j分别是相关的对偶变量，据此结构我们可以在线求解以上问题。具体来讲，x_{ij}可以根据以下公式求得：

通过上式求得的x_{ij}和j，我们就得到了毕竟的分配计划。

四、体系安置

目前在集团做端智能首推jarvis途径，在这儿给相关同学点赞，在最初步的时分没少麻烦jarvis同学解决问题。运用jarvis，我们可以收集端上实时数据并将深度模型安置到端上。我们首要是将IIDN安置到端上，MCKP抉择计划模型因为需求考虑全局最优，所以放在了服务端。

图-3: 体系大图

图-3是我们整体的体系架构，每一个用户在详情页回退到landing page的时分会触发抉择计划模型，IIDN首要根据端上采集到的行为数据辨认出用户的下单和停留意图，随后该意图会被推送到服务端参与毕竟的红包抉择计划。我们这套体系在日常线上持续收效，一起还参与了0331商人节，助力买家数的进步。

五、实验

实验设置

我们从1688客户端收集数据，用到的特征如下表：

实验分为两部分：离线实验和在线实验。离线实验首要验证IIDN关于意图的辨认效果，验证方针是AUC和logloss；在线实验首要验证我们二段式建模关于红包发放的效果，首要的验证方针是增量买家本钱 (increment cost, ic)，它被用来衡量每带来一个增量买家需求耗费的本钱，核算公式如下：

离线实验

在离线实验环节，我们分别运用以下方法进行下单意图辨认，并进行比较：

1.Logistic Regression (LR)
2.Gradient Boosting Decision Tree (GBDT)
3.DNN + RNN [12]
4.IIDN-single-LSTM （单层LSTM）
5.IIDN-non-attention （无Attention机制，运用简单的全衔接）
6.IIDN-non-auxiliary-task (没有辅佐任务的IIDN)
7.IIDN

离线效果如下表：

可以看到IIDN达到最高的AUC和最低的Logloss，这证明了IIDN的合理性。

在线实验

我们首要和别的三个发放计划做比较：

1.不发：该桶悉数用户均不发红包
2.全发：该桶悉数用户均发红包
3.uplift：我们选用广告营销傍边常用的uplift计划，对每一个用户发放使他转化率进步最大的面额，一起该面额带来的转化率进步需求大于必定的阈值，不然不发放红包

在线效果如下表：

可以看到虽然全发桶带来的转化率进步最显着，但是它也带来了最大的增量买家本钱。我们提出的计划不只相对天然转化率进步了25.7%，一起也比全发桶的增量买家本钱减少了44.3%，这证明了我们计划的优越性。

模型分析

学习曲线

图-4: 学习曲线

图-4展现了不同方法的学习曲线，可以看到LSTM, Attention以及停留意图辨认任务均可以起到加快模型训练的效果。

单调性分析

正常来讲，红包面额越大，关于用户的刺激效果也越大，用户下单率曲线应该是一条关于红包面额单调递加的曲线，我们实验得到的曲线如下图：

图-5: 单调性曲线

可以看到悉数模型根本呈现单调性，其间IIDN更加符合真实情况。

六、参考文献

1. 竞赛网络下的智能红包发放(ATA)

2. 花钱，我们是细心的 — 根据用户权益灵敏与大规模分组背包的红包发放算法(ATA)

3. 2018双11：用户来而未购？用户购买意图辨认与惊喜红包新玩法(ATA)

4. 外交营销（1）：双11盖楼，红包有多少，楼有多高！| 根据外交裂变的C2C红包智能投进(ATA)

5. 商家增加引擎系列二：全生命周期商家建模与直通车智能红包(ATA)

6. Jarvis端上算法途径介绍(ATA)

7. Agrawal, Shipra, Zizhuo Wang, and Yinyu Ye. “A dynamic near-optimal algorithm for online linear programming.” Operations Research 62.4 (2014): 876-890.

8. Chen, Ken, Bao-Liang Lu, and James T. Kwok. “Efficient classification of multi-label and imbalanced data using min-max modular classifiers.” The 2006 IEEE International Joint Conference on Neural Network Proceedings. IEEE, 2006.

9. Guo, Long, et al. “Buying or browsing?: predicting real-time purchasing intent using attention-based deep network with multiple behavior.” Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.

10. Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. “Sequence to sequence learning with neural networks.” Advances in neural information processing systems. 2014.

11. Ma, Xiao, et al. “Entire space multi-task model: An effective approach for estimating post-click conversion rate.” The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018.

12. Wei, Ermo, Drew Wicke, and Sean Luke. “Hierarchical approaches for reinforcement learning in parameterized action space.” 2018 AAAI Spring Symposium Series. 2018.

延伸阅读

延伸阅读《阿里巴巴B2B电商算法实战》点我购买

引荐语：本书是阿里巴巴CBU技能部（1688.com）深耕B2B电商15年的经验总结。阿里巴巴B2B在战略形状上阅历了信息途径、买卖途径和营销途径的晋级迭代，本书聚集营销途径商业形状背面的算法和技能才干，试图从技能和商业互为驱动的视角论述技能如何赋能业务，并结合阿里巴巴集团在基础设域和算法立异上的沉积，打造出智能B2B商业操作体系。

原文链接：click.aliyun.com/m/100034694…

本文为阿里云原创内容，未经答应不得转载。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

科学地花钱：基于端智能的在线红包分配方案 (CIKM2020)