多场景多任务学习在美团到店餐饮推荐的实践

跟着引荐算法技能的不断发展，跨场景学习现已遭到了越来越多的研讨人员的重视。美团到餐算法团队遭到业界相关技能的启发，不断探索到店餐饮多场景引荐的优化问题，在多场景多使命学习的引荐领域中积累了较多的运用经历。团队运用到店餐饮全域引荐场景数据练习一致的多场景多使命学习模型，减少了重复性开发，并在多个到店餐饮引荐场景进行落地，取得了较为明显的效果。

本文详细阐述了美团到店餐饮事务中多场景多使命学习的处理方案，依据该方案构成的学术论文《HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction》现已被世界数据工程会议ICDE 2023录入。

1. 布景

跟着网络信息和服务的爆破式增加，引荐体系现已成为为用户提供高质量个性化决议计划建议和体验的要害组件。传统的引荐体系，模型服务一般需求为特定场景独自进行定制化的开发，以适配不同场景下数据散布和特征空间的差异。然而在美团等工业互联网平台中一般存在多种多样的引荐场景（例如首页信息流、垂类子频道等）作用于用户访问的决议计划链路，一起依据每个场景的个性化引荐模型再对展现项目进行排序终究呈现给用户。

在美团到店餐饮（以下简称到餐）平台中，伴随事务精细化的发展趋势，越来越多的场景需求对引荐体系进行定制化的建造，以满意用户到店就餐的个性化需求。如下图1所示，实际中用户往往会在多个不同场景之间进行阅读、点击，并终究成交。

图1 用户在美团到餐平台中的交互流程

但跟着引荐场景数量的增加，传统地针对单个场景独立开发引荐模型，往往会导致如下问题：

仅依据单场景自身的数据进行建模，无法运用到用户在跨场景中丰厚的行为信息，忽视了场景共性信息，特别是考虑到多种场景中可能会存在重复展现的产品（在上图1中，赤色矩形框圈中的其实是相同的产品）。
一些长尾的事务场景因为流量较小且用户行为较为稀疏，数据量缺乏以让模型有用地进行建模。
因为每个场景的特征发掘、模型练习和上线布置是独立开发且相互阻隔的，这会大大增加核算成本和保护负担。

总的来讲，引荐算法对各场景独自建模存在许多的局限性。然而，简略地将多个场景数据集进行合并练习一个排序模型来提供服务，并不能有用地捕获到每个场景的特有信息。

此外，除了多场景引荐问题，每个场景中的用户满意度和参加度等一般都存在不同的衡量目标需求一起优化，例如点击率（CTR）和点击转化率（CTCVR）。因而需求开发一个有用和一致的结构，来处理这种在多个场景中优化各种目标杂乱性的问题（即多场景多使命优化问题）。

在最近的一些研讨中，相关办法往往是将多场景引荐做为一个多使命学习（Multi-Task Learning，MTL）问题进行建模，而且此类办法大多运用多门控混合专家（Multi-gate Mixture-of-Experts，MMoE）网络结构作为模型改善的基础来学习场景之间的共性和特性。然而，这种依据MTL的办法往往将多个场景的数据信息投影到同一个特征空间进行优化，这很难充沛捕捉到具有多个使命的众多场景之间的杂乱关系，因而也无法进一步进步多场景多使命学习模型的功能。

从直觉来看，多场景和多使命的信息建模应属于不同层次的优化，应该进行分层处理。因而，在本文中，咱们提出了一种层次化信息抽取网络（Hierarchical information extraction Network，HiNet）。详细来说，咱们规划了一个端到端的两层信息抽取结构，来一起建模场景间和使命间的信息同享和协作。

首要，在场景抽取层（Scenario Extraction Layer），HiNet能够经过独自的专家模块提取场景同享信息和场景特有信息。为了进一步加强对当时场景的表明学习，咱们规划了场景感知注意力网络（Scenario-aware Attentive Network，SAN），显式学习其他场景对当时场景的信息表征奉献程度。

然后，在使命抽取层（Task Extraction Layer），运用自界说的由使命同享和使命特有专家网络组成的门控网络，有用地缓解了多使命学习中同享信息和使命特有信息之间的参数搅扰。

经过在模型结构上别离场景层和使命层的信息提取，能够将不同场景下的多个使命清晰划分到不同的特征空间中进行优化，然后有利于进步模型功能。

整个论文的首要立异点如下：

咱们提出了一种新颖的多场景多使命学习模型HiNet，用于优化多场景下的多种使命目标，其间立异性地运用了分层信息抽取架构。
在场景信息抽取层中，咱们提出了场景感知注意力网络SAN模块，进一步增强了场景信息建模的才能。
离线评价和在线A/B测验的试验证明晰HiNet优于当时首要办法。现在，HiNet已在美团到餐中的两个场景中进行了全面布置。

2. 层次化信息抽取网络

2.1 问题界说

如上所述，咱们首要重视的是多场景多使命引荐的优化问题。咱们将该问题界说为： $yij=fij(x,si)\hat{y}_i^j=f_i^j\left(x, s_i\right)$ ，其间 $s_i$ 表明第 $i$ 个场景指示， $yij\hat{y}_i^j$ 是第 $i$ 个场景下使命 $j$ 的预估值， $x$ 表明输入的稠密特征。

原始的特征输入中首要包含了用户画像特征、用户行为特征、当时场景特有特征和产品特征，其间的数值特征首要被转化为分类特征，然后将一切分类特征映射到低维向量空间来取得 $x$ 。考虑到美团到餐平台中详细的优化方针，咱们别离为每个场景设置了CTR和CTCVR两个使命。

2.2 办法介绍

本小节将展开介绍层次化信息抽取网络模型HiNet。如下图2-(A)所示，HiNet模型中首要包含场景抽取层和使命抽取层两个核心模块。其间在场景抽取层首要包含了场景同享专家（Scenario-shared expert）模块、当时场景特有专家（Scenario-specific expert）模块以及场景感知注意力网络，经过这三部分的信息抽取，终究构成了场景层次的信息表征；而在使命抽取层中，咱们运用自界说门控网络模块CGC（Customized Gate Control）来对当时场景的多使命学习进行建模。下文将详细介绍上述说到的HiNet模型的要害部分。

图2 Hierarchical information extraction Network模型结构

2.2.1 场景抽取层（Scenario Extraction Layer）

场景抽取层的作用是提取场景特有的信息表征和场景间同享的有价值信息表征，这是进步使命层次信息表征才能的基础。在场景抽取层，首要包含场景同享专家网络、场景特有专家网络和场景感知注意力网络三部分，下文将顺次进行介绍。

场景同享/特有专家网络

考虑到用户跨场景的交叉式行为以及多个场景间产品重叠的现象，到餐事务中多个场景的数据之间存在着有价值的同享信息。因而在战略上，咱们规划了场景同享专家网络。这里遭到混合专家网络架构MoE（Mixture of Expert）的影响，场景同享专家网络是经过运用子专家集成模块SEI（Sub-Expert Integration module，如图2-(C)）生成的。

详细来说，场景同享专家网络的终究输出为 $G$ ，其公式为：

\sum_{k=1} ^{K_{s}} g_{sh}^{k}(x) Q^k_{sh}(x)

其间， $QshkQ^k_{sh}$ 表明第 $k$ 个子专家网络，该网络是由多层感知器（Multilayer perceptron，MLP）和激活函数组成， $K_{s}$ 表明子专家网络 $Qsh(⋅)Q_{sh}(\cdot)$ 的数量， $g_{sh}(x)$ 表明门控网络的输出，它是经过带有Softmax激活函数的简略线性变换得到：

g_{sh}(x) = softmax(W_{sh}x)

除了运用场景同享专家网络提取不同场景间的同享信息，咱们还为每个场景别离规划了场景特有专家网络来学习场景特有的信息，该网络也是由SEI模块组成。详细地，第 $i$ 个场景的场景特有专家网络的输出 $S_{i}$ 表明如下：

Si=∑k=1Kigspk(x)Qspk(x)S_{i} = \sum_{k=1} ^{K_{i}} g_{sp}^{k}(x) Q_{sp}^{k}(x)

其间 $Q_{sp}^{k}$ 表明第 $k$ 个子专家网络， $K_{i}$ 是 $Qsp(⋅)Q_{sp}( \cdot)$ 的数量， $g_{sp}(x)$ 表明场景特有专家网络所对应的门控网络的输出。

场景感知注意力网络

如上文所述，不同场景之间存在必定程度的相关性，因而来自其他场景的信息也能够对当时场景的信息表征做出奉献，然后增强当时场景的信息表达才能。考虑到不同场景间对相互的表征才能奉献不同，咱们规划了场景感知注意力网络（Scenario-aware Attentive Network，SAN）来衡量其他场景信息对当时场景信息表征奉献的重要性。详细来说，SAN包含两部分输入：

a. 场景指示 $s_i$ 生成的嵌入向量 $Emb(s_i)$ ，该向量经过带有Softmax函数的门控网络后能够核算出其他场景对当时场景信息表征的重要性权重。
b. $,SM]S=\left[S_1,\cdots,S_{i-1},S_{i+1},\cdots, S_M\right]$ ， $S$ 对应了一系列其他场景生成的信息表明。

经过SAN模块核算的第 $i$ 个场景的输出 $A_i$ 是场景表明 $S$ 的加权和：

Ai=∑m≠iMgai(si)SmA_i = \sum_{m\neq{i}}^{M} g_{a}^{i}(s_i) S_{m}

g_{a}^{i}(s_i) = softmax(W_{a}^{i} Emb(s_i))

其间 $Emb(⋅)Emb(\cdot)$ 表明场景指示投影为嵌入向量， $gai(⋅)g_{a}^{i}(\cdot)$ 表明依据权重 $Wai∈R(M−1)×dW_{a}^{i} \in R^{(M-1) \times d}$ 的门控网络， $d$ 表明 $Emb(⋅)Emb(\cdot)$ 的维数， $M$ 是场景的个数。

经过SAN模块能够依据杂乱的场景相关性不同程度地传递跨场景信息，有用地增强了场景的表明学习，然后进步了HiNet模型的功能。

综上所述，场景抽取层的全体输出 $C_{i}$ 能够表明为：

Ci=Concat[G,Si,Ai]C_{i} = Concat\left[ G, S_i, A_i\right]

2.2.2 使命抽取层（Task Extraction Layer）

为了处理多使命学习中的负搬迁问题，在使命抽取层，咱们遭到PLE（Progressive Layered Extraction）模型的启发，选用了自界说门控网络CGC模块。

自界说门控网络

自界说门控网络首要由两部分组成：使命同享专家网络和使命特有专家网络。前者首要担任学习当时场景中一切使命中的同享信息，后者用于提取当时场景中各个使命的特有信息。

类似地，该结构经过门控网络核算一切专家网络的加权和作为输出。此外，为了防止不同场景之间的使命相互搅扰，场景抽取层中第 $i$ 个场景的输出 $C_{i}$ 将被输入到特定场景的CGC模块中。终究，第 $i$ 场景中使命 $j$ 的塔单元输入 ${T}_{i}^{j}$ 如下：

Tij=δij(Ci)[Ethi(Ci)∣∣Etpij(Ci)]{T}_{i}^{j} = \delta_{i}^{j}(C_{i}) \left[ E_{th}^{i}(C_{i}) || E_{tp}^{ij}(C_{i}) \right]

其间， $E_{th}^{i}(C_{i})$ 和 $E_{tp}^{ij}(C_{i})$ 别离表明在第 $i$ 个场景中使命同享专家网络和使命 $j$ 的特有专家网络的调集。 $δij(Ci)\delta_{i}^{j}(C_{i})$ 是一个门控网络，经过线性变换层和Softmax层来核算第 $i$ 场景的使命 $j$ 的权重向量：

δij(Ci)=softmax(WijCi)\delta_{i}^{j}(C_{i}) = softmax(W_{i}^{j}C_{i})

其间， $Wij∈R(mi+nij)×d′W_{i}^{j} \in R^{(m_i+n_i^j) \times {d}^{‘}}$ 是参数矩阵， $m_i$ 和 $n_i^j$ 别离是 $E_{th}^{i}(C_{i})$ 和 $E_{tp}^{ij}(C_{i})$ 的维度， ${d}^{‘}$ 是 $C_{i}$ 的维数。

终究，在第 $i$ 个场景下使命 $j$ 的猜测值可表明为：

yij=τij(Tij)\hat{y}_{i}^{j} = \tau_i^j({T}_{i}^{j})

其间， $τij(⋅)\tau_i^j(\cdot)$ 表明第 $i$ 个场景下使命 $j$ 的塔单元，由具有激活函数的MLP组成。

2.3 练习方针

咱们提出的HiNet的终究损失函数是：

yij)Loss=\sum_{i=1}^{M}\sum_{j=1}^{N_i}\lambda_{i}^{j}\cdot Loss_{i}^{j}(y_{i}^{j},\ \hat{y}_{i}^{j})

其间， $N_i$ 表明第个 $i$ 场景下的使命数， $λij\lambda_{i}^{j}$ 是控制不同损失比例的超参数。

3. 试验

3.1 试验设置

数据搜集：咱们搜集了美团到餐平台中的六个场景（场景编号为 $a$ 到 $f$ ）的用户日志数据作为咱们的多场景多使命练习和评价数据集，其间场景 $a$ 和 $b$ 是大场景数据集。相比之下， $c$ 到 $f$ 被作为小场景数据集。

表1 各场景样本数据集统计

评价目标：咱们别离考虑每个场景的CTR和CTCVR使命的功能评价，并选用AUC（Area Under ROC Curve）作为多场景多使命数据集的评价目标。
模型对比：为了公正地对比咱们提出的HiNet模型与业界的SOTA（State-Of-The-Art）模型，咱们运用相同条件的试验环境和模型参数量，并对每个模型进行了充沛调优和多次试验。详细对比的模型如下：

多使命学习模型：

Shared Bottom：该模型是一个具有硬参数同享的神经网络模型。
MMoE：该办法运用灵敏的门控网络调整专家网络表明信息，并终究运用塔单元融合每个使命的一切专家网络表明信息。
PLE：该模型依据MMoE，将专家网络显式划分为使命同享专家和使命特有专家，有用缓解了“跷跷板”现象带来的负搬迁问题。

多场景学习模型：

HMoE：该办法由MMoE改善而来，对多个场景的猜测值进行建模，并针对当时场景优化使命猜测结果。
STAR：该办法经过星型拓扑结构构造一个同享的和场景特有的网络，用于学习当时场景的信息表征。

需求指出的是，上述用于对比的模型开始只是为了单纯处理多使命学习或多场景学习的问题而提出的。为了完成公正的试验比较，咱们在试验中对相关对比模型做了自适应扩展，以满意多场景多使命建模的需求。

3.2 功能比较

表2 在一切场景下相关对比模型的功能比较

表2展现的是咱们在美团到餐平台中六个场景下的各个模型的功能对比。从结果能够看出，咱们提出的HiNet模型在一切场景的CTR和CTCVR使命目标上都优于其他对比模型，这证明晰HiNet在多场景多使命建模的优势。

3.3 消融研讨

为了研讨HiNet模型中每个要害组件的效果，咱们规划了两个HiNet模型的变体用于消融剖析。详细如下：

HiNet（w/o hierarchy）：表明去掉了信息抽取的层级架构，直接选用CGC网络进行多场景多使命学习建模。
HiNet（w/o SAN）：表明的是在场景抽取层中删除SAN模块后的HiNet模型。

表3 HiNet模型的消融试验结果对比

从表3的试验结果，咱们能够观察到，变体模型HiNet（w/o hierarchy）在一切目标上都有严峻的功能下降，这表明分层信息抽取架构能够有用地捕获跨场景的共性和差异，然后进步模型的功能。类似地，在场景抽取层去掉SAN模块后，变体模型HiNet（w/o SAN）在多个场景下功能也有明显的下降，这表明SAN模块学习到的权重信息能够有用地增强场景抽取层的信息表征才能。

3.4 在线A/B测验

为了进一步验证咱们提出的HiNet模型的在线功能，咱们在美团到餐平台中的场景 $a$ 和 $b$ 中布置了HiNet模型，并与基线模型进行了为期一个月的在线A/B测验。

表4 场景a和b的在线A/B测验收益

从表4能够看出，HiNet模型在多个场景的CTR和CTCVR目标中均超过了基线模型，而且在订单增益上有明显的进步，这进一步说明晰咱们提出的HiNet模型的有用性。现在，HiNet模型现已全面布置在上述两个事务中，并为事务的增加做出了必定的奉献。

4. 总结与展望

多场景多使命建模是现在引荐体系中最要害和最具挑战性的问题之一。以往的模型首要经过将一切信息投影到同一个特征空间来优化不同场景下的多个使命，这导致模型功能存在缺乏。

在本文中，咱们提出了层次化信息抽取网络HiNet模型，它运用分层优化架构对多场景多使命问题进行建模。在此基础上，咱们在场景抽取层规划了场景感知注意力网络模块SAN来增强场景的表明学习才能。离线和在线A/B测验试验都验证了HiNet模型的优越性。

值得一提的是，现在业界现已呈现了大量的图神经网络在引荐模型上的运用。受此启发，在未来的工作中，美团到餐算法团队将图神经网络的信息传递才能结合到多场景多使命学习建模的方案中，继续实践咱们的办法，并进一步规划更加完善的模型，来处理在美团到餐平台中存在的杂乱的多场景多使命建模问题。

作者简介

周杰、先帅、文豪、薄琳、张琨等，均来自美团到店/平台技能部。

参考文献

[1] P. Li, R. Li, Q. Da, A.-X. Zeng, and L. Zhang, “Improving multi-scenario learning to rank in e-commerce by exploiting task relationships in the label space,” in Proceedings of the 29th ACM International Conference on * Information & Knowledge Management (CIKM), 2020, pp. 2605–2612.
[2] X.-R. Sheng, L. Zhao, G. Zhou, X. Ding, B. Dai, Q. Luo, S. Yang, J. Lv, C. Zhang, H. Deng et al., “One model to serve all: Star topology adaptive recommender for multi-domain ctr prediction,” in Proceedings of the 30th * ACM International Conference on Information & Knowledge Management (CIKM), 2021, pp. 4104–4113.
[3] J. Ma, Z. Zhao, X. Yi, J. Chen, L. Hong, and E. H. Chi, “Modeling task relationships in multi-task learning with multi-gate mixture-of-experts,” in Proceedings of the 24th ACM SIGKDD international conference on * knowledge discovery & data mining (SIGKDD), 2018, pp. 1930–1939.
[4] H. Tang, J. Liu, M. Zhao, and X. Gong, “Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations,” in Proceedings of the 14th ACM Conference on Recommender Systems (RecSys), 2020, pp. 269–278.
[5] L. Torrey and J. Shavlik, “Transfer learning,” in Handbook of research on machine learning applications and trends: algorithms, methods, and techniques. IGI global, 2010, pp. 242–264.
[6] S. J. Pan and Q. Yang, “A survey on transfer learning,” IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, pp. 1345–1359, 2010.
[7] F. Zhu, Y. Wang, C. Chen, J. Zhou, L. Li, and G. Liu, “Cross-domain recommendation: challenges, progress, and prospects,” in 30th International Joint Conference on Artificial Intelligence (IJCAI). International Joint * Conferences on Artificial Intelligence, 2021, pp. 4721–4728.
[8] Y. Zhang and Q. Yang, “A survey on multi-task learning,” IEEE Transactions on Knowledge and Data Engineering, 2021.
[9] S. Ruder, “An overview of multi-task learning in deep neural networks,” arXiv preprint arXiv:1706.05098, 2017.
[10] O. Sener and V. Koltun, “Multi-task learning as multi-objective optimization,” in Thirty-second Conference on Neural Information Processing Systems (NeurIPS), 2018.
[11] C. Rosenbaum, T. Klinger, and M. Riemer, “Routing networks: Adaptive selection of non-linear functions for multi-task learning,” in International Conference on Learning Representations (ICLR), 2018.
[12] J. Wang, S. C. Hoi, P. Zhao, and Z.-Y. Liu, “Online multi-task collaborative filtering for on-the-fly recommender systems,” in Proceedings of the 7th ACM conference on Recommender systems (RecSys), 2013, pp. 237–244.
[13] R. Caruana, “Multitask learning,” Machine learning, vol. 28, no. 1, pp. 41–75, 1997.
[14] K. Weiss, T. M. Khoshgoftaar, and D. Wang, “A survey of transfer learning,” Journal of Big data, vol. 3, no. 1, pp. 1–40, 2016.
[15] N. Shazeer, A. Mirhoseini, K. Maziarz, A. Davis, Q. Le, G. Hinton, and J. Dean, “Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,” arXiv preprint arXiv:1701.06538, 2017.
[16] D. Eigen, M. Ranzato, and I. Sutskever, “Learning factored representations in a deep mixture of experts,” Computer Science, 2013.
[17] M. I. Jordan and R. A. Jacobs, “Hierarchical mixtures of experts and the em algorithm,” Neural computation, vol. 6, no. 2, pp. 181–214, 1994.
[18] R. A. Jacobs, M. I. Jordan, S. J. Nowlan, and G. E. Hinton, “Adaptive mixtures of local experts,” Neural computation, vol. 3, no. 1, pp. 79–87, 1991.
[19] S. E. Yuksel, J. N. Wilson, and P. D. Gader, “Twenty years of mixture of experts,” IEEE transactions on neural networks and learning systems, vol. 23, no. 8, pp. 1177–1193, 2012.
[20] Y. Zhang, C. Li, I. W. Tsang, H. Xu, L. Duan, H. Yin, W. Li, and J. Shao, “Diverse preference augmentation with multiple domains for cold-start recommendations,” in IEEE International Conference on Data Engineering (ICDE), 2022.

| 在美团公众号菜单栏对话框回复【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等要害词，可查看美团技能团队历年技能文章合集。

| 本文系美团技能团队出品，著作权归属美团。欢迎出于共享和沟通等非商业意图转载或运用本文内容，敬请注明“内容转载自美团技能团队”。本文未经许可，不得进行商业性转载或者运用。任何商用行为，请发送邮件至tech@meituan.com请求授权。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。