美团外卖引荐团队在引荐算法的长时刻落地实践中,针对外卖事务情境化特色对排序模型进行深化探究与优化。本文介绍了面向情境化建模的“情境细分+共同模型”建模思路,经过用户行为序列建模以及专家网络两个模块的优化,完成不同场景间对信息独有性的描写和信息共性的彼此传递,然后进步悉数流量功率。

1. 导言

美团外卖引荐服务了数亿用户,经过继续优化用户体会和流量分发精准性,为用户供应质量日子,“帮咱们吃得更好,日子更好”。关于“用户”,咱们可能会有不同的了解,一般的了解是用户即是自然人。业界首要的引荐场景,如淘宝主页猜你喜爱、抖音快手 Feeds 流引荐等大部分也是这么认为的,在这些电商、短视频等事务中,用户无论何时何地运用引荐服务,他们的需求是大体共同的,产品、信息、视频等供应也是共同的。

但实践上,在美团外卖场景下,用户不只是自然人,更是需求的集合。需求是与情境依存的,也便是有情境就有需求。美团外卖在不同的时刻、空间以及其他更广义的环境下,用户需求、商家供应等都有显着差异。因而,本地化、餐饮习气、即时履约共同构建了美团外卖多种多样的情境,然后衍生出用户多种多样的需求集合,引荐算法情境化能够协助算法更好地了解并满足不同情境下用户需求。

2. 问题与应战

外卖场景具有很强的地理方位和就餐文明束缚,用户在不同地址(如公司、住所)的需求有较大差异。而且,所在时刻也是决议用户下单的一个关键因素。以北京某区域高消费用户为例,作业日和周末在成单品类、成单价格、成单商家配送间隔上有着显着的不同。如下图 1 所示,作业日与周末用户在口味、心态上有显着改动,作业日多为单人餐,以饭类套餐、轻食、米线为主,愈加习惯作业时的快节奏;而在周末,用户会恰当犒赏自己、统筹家人,倾向于挑选更适合多人就餐的烧烤、韩国照料、火锅。从图 1 也能够发现,从作业日到周末时,用户的成单价格中位数由 30 元进步至 50 元,能够承受的配送间隔也在变长。

图1 某区域高消费用户在作业日和周末的差异性就餐习气

美团外卖引荐需求满足“用户 X 时刻 X 地址”等情境下的需求总和,应对需求的不断拓宽和演化。为了更好的了解咱们所面临的用户需求,如下图 2 所示,将其界说到一个魔方内(Magic Cube),用户、时刻和地址是魔方的三个维度。其间,魔方中的每个点,如图 2 中黄色点,代表一个用户在一个特定情境下的需求;魔方中的每个小立方体,如图 2 中黄色立方体,代表一组类似用户在一组附近情境下的需求。此外,在问题界说上,为了支撑情境维度的进一步扩展,咱们运用超立方体(Hyper Cube)来界说更多维度的用户需求。

图2 “用户 X 时刻 X 地址”等情境下的需求总和

面临以上这种三维模式,模型规划是非常棘手的。以往的模型规划,比方用户爱好建模,或许朴素的多层神经网络无法应对这些复杂的用户、时刻和地理环境纠缠在一起的状况。用户爱好建模一般选用接连建模办法,经过注意力机制提取重要行为偏好信息。可是在用户行为丰厚的状况下,模型很难对一切行为进行学习,而且在外卖场景只有一部分前史行为与用户的当次拜访高度相关,接连的行为建模会削弱相关部分的信号。

此外,朴素的多层神经网络依据悉数情境下的数据和标签进行练习,只能学习到全体的数据散布体现,在每个情境下很难达到最佳作用。针对这一问题,阿里 SIM4首要考虑了把行为中的重要相关信息查找出来进行建模的办法,但他们所要处理的问题在于降低用户超长序列建模的离在线资源耗费,并没有在模型中引进情境特色;蚂蚁 ASEM216、腾讯 CSRec17等经过模型主动化挑选不同场景专家网络进行同享或独立学习进步全场景或许多使命模型体现,可是这些作业都只专心于单一维度情境,并没有做更广泛的拓宽。

针对无限细分的用户情境以及情境的不断拓宽和演化,为处理以上应战,咱们提出“情境细分+共同模型”(Segmented and Unified Model)的建模思路。情境细分针对用户特定情境进行针对性建模进步引荐精准度,共同模型将多个附近用户情境进行常识同享和搬迁处理情境拓宽和演化的问题。

详细来说,依据 Cube 中的每个情境,能够从用户前史行为中检索出与当次拜访最相关的行为,准确描写当时情境下的用户偏好。此外,咱们规划多个专家网络,让各个专家专心于学习细分情境下的数据散布,然后依据用户、城市、时段、是否周末等情境强相关特征来进行专家的挑选,不同情境能够学习到是否同享某个专家或许学习到与众不同的专家挑选散布。关于新用户或许行为不够丰厚的用户,学习 Cube 的概念,能够考虑从 Cube 中检索出近似情境,并依据近似情境检索出的行为作为用户在当时情境下的爱好弥补,一起关于情境化专家网络,经过模型规划让不同专家专心于自己情境的一起,针对本情境,运用其他情境常识进行常识搬迁,这样缓解了新用户冷启动问题以及可能存在的数据稀少问题。

除了依据时刻、地址进行情境细分之外,还能够将不同的流量进口(主页、金刚位、活动页)、事务类型(外卖、闪购、医药)都当成一种特别的“情境”,这样“用户 X 时刻 X 地址”能够自然拓宽成“用户 X 时刻 X 地址 X 进口 X 事务”的高维情境,经过对信息独有性的描写和信息共性的彼此传递,完成悉数流量的功率进步。

3. 情境化智能流量分发

“情境细分+共同模型”的完成思路首要分为用户行为序列建模与专家网络结构两个组成部分,模型全体架构如图 3 所示:

图3 情境化智能流量分发模型

该模型经过 Cube 检索出特定细分情境下的用户行为进行序列建模,而且经过专家网络模型主动化对不同情境参数进行学习,坚持了模型共同,既能描写情境的独特性,也能完成不同情境间的常识同享和搬迁。详细的,在用户行为序列建模上,首要仔细考虑了细粒度行为特征关于外卖商家引荐的重要作用,并以此为基础,依据时刻、空间场景对用户序列进行长序列多路情境检索;关于专家网络结构,则先针对不同进口情境树立依据 Attention 机制的多进口情境建模,随后探究了情境化稠密 MMOE 和稀少 MMOE 模型,发现在外卖场景中,专家网络能够学习到不同情境、不同使命的不同,然后进步模型精度。

依据该计划,关于 CTR、CXR(CTCVR)使命,模型在离线目标 AUC、GAUC(perSessionAUC)上均获得了显着进步,并在线上也获得了 UV_RPM、UV_CXR、PV_CTR、曝光新颖性、首购订单占比等目标收益。线上目标核算口径如下:

  • UV_RPM = 实付交易额(GMV)/曝光人数*1000
  • UV_CXR = 交易用户数/曝光人数
  • PV_CTR = 点击次数/曝光次数
  • 曝光新颖性 = (A -(A∩B))/ A,该用户当时 session 内曝光的商家集合为 A,该用户 7 天内一切 session 中曝光过的商家集合为 B
  • 首购订单占比 = 商家新用户的订单数/总订单数

3.1 情境化长序列检索

依据深度学习的办法在 CTR 预估使命中获得了巨大成功。早期,大多数作业运用深度神经网络来捕获来自不同范畴的特征之间的交互,以便工程师能够脱节单调的特征工程作业。最近,咱们称之为用户爱好模型的一系列作业,专心于从前史行为中学习潜在用户爱好的标明,运用不同的神经网络架构,如 CNN、RNN、Transformer 和 Capsule 等。DIN1着重用户爱好是多样的,并引进了注意力机制来捕捉用户对不同目标产品的不同爱好。DIEN2指出,前史行为之间的时刻联络关于建模用户的爱好漂移很重要,并规划了一个带有辅助损失的 GRU 爱好提取层。

可是,关于美团外卖,依据以上接连建模的办法,难以从用户前史行为中提取出与用户的当次拜访情境高度相关的有用信息。MIMN3标明在用户爱好模型中考虑长时刻前史行为序列能够显着进步模型的功能。可是较长的用户行为序列包含很多噪声,一起极大地添加了在线服务体系的推迟和存储负担。针对上述问题,SIM4提出把行为中的重要相关信息查找出来。详细来说,在拿到需求被预估的产品信息后,能够像信息检索一样,对用户行为产品构建一个快速查询的索引。待预估产品的信息能够作为是一个 Query,从用户的一切行为中,查询与其相关的行为子序列。

因而,受启示于 MIMN 的超长序列和 SIM 的检索思路,咱们规划出情境化序列检索办法,依据 Cube 内的情境,从用户超长的前史行为序列中检索出的与当次拜访情境最相关性的用户行为,然后捕获更为精准的用户爱好。

3.1.1 细粒度行为特征

不同于电商中的产品引荐形式,美团外卖引荐是以商家为主体,用户从进入商家到终究下单过程中具有愈加丰厚的细粒度行为,经过捕捉用户在商家中的细粒度行为,能够精细感知到用户差异化偏好,如注重质量商家的用户会更多检查商家/产品描绘和谈论,而扣头敏感度高的用户则会检查扣头信息、领取优惠券等。

工业实践中,用户行为序列特征往往包含商家/产品 ID、品类、价格等商家/产品标明特征,而在行为标明上除了用户到商家的点击之外,用户经过什么页面进入到商家点菜页、用户在商家点菜页中的细粒度行为,相同能够反映用户的偏好。因而,能够对用户从阅读商家到终究下单整个流程进行概括剖析,捕捉用户最细腻的行为并纳入模型,充沛学习用户在外卖场景中重要的、最细粒度的行为及其所代表的目的偏好。

咱们将用户从阅读商家到成单产品的全流程抽取出 70 种不同的 Micro-Behavior,总结概括出四大步骤:定位商家、调查商家、挑选产品、结算提单。在概括不同目的的 Micro-Behavior 时,归纳考虑了该目的下 Micro-Behavior 的日均 PV、当日转化率、行为跳转途径以及页面展现信息,并剔除了日均 PV 覆盖率小于 1%的 Micro-Behavior,将相同目的的行为聚合到一起作为特征标明(比方点评 Tab 点击、点评标签点击和用户点评缩略图点击聚组成“检查谈论”目的标明),终究笼统出 12 种不同目的的 Micro-Behavior,用来捕捉用户更深层次、更细粒度的爱好。依据用户 Micro-Behavior 提炼出从进入商家到终究下单流程如下图 4 所示:

图4  用户点外卖过程

接下来,咱们详细介绍下图 4 中用户点外卖过程的 4 类 12 种 Micro-Behavior。

  • 定位商家是指用户进入商家的进口标识,它能够反映出用户对该商家感爱好的原因;比方从查找成果页进入代表用户是有较强的购买志愿,比较引荐成果页进店用户有愈加明晰的目的。
  • 调查商家的行为则包含点击了解商家详情、检查产品谈论和检查商家扣头,它能够协助更好的了解用户的重视点,学生集体可能更注重扣头,而家庭用户可能愈加重视商家质量。
  • 挑选产品意味着用户对商家的满足度达标了,其间,点击产品和加购产品能够体现出用户对商家不同的感爱好程度。
  • 结算提单则标明该商家能满足用户当时状况下的需求,既包含了对商家的认可,也包含对商家中产品的满足,收藏与共享更是标明出用户对商家的高度赏识。

如下图 5 左所示,9 种不同目的的 Micro-Behavior 的当日转化率存在着显着差异(当日转化界说:用户在商家发生某一 Micro-Behavior 后的自然日内有成单;结算提单目的下 3 种行为因为转化率很高,因而不做展现)。

图5 Micro-Behavior和转化率联络

别离在用户实时(短周期行为)、前史(长周期行为)商家序列中引进 Micro-Behavior 信息。如下表所示,离线试验数据标明,引进的 Micro-Behavior 信息获得了比较显着的进步。终究,细粒度行为特征在线获得了 UV_RPM+1.77%,PV_CTR+1.05%的收益。

优化计划 CTR AUC CXR AUC CTR GAUC CXR GAUC
序列引进 Micro-Behavior 信息 +0.69pp +0.54pp +0.10pp +0.39pp

离在线试验作用标明引进 Micro-Behavior 信息添加了模型的精准引荐能力。此外,咱们进一步对模型是否正确的学习了细粒度行为进行验证。随机选取一个用户的成单商家及其商家序列引进 Micro-Behavior 后 Attention 权重改动,如下图 6 所示,图左上部分标明用户行为序列中的商家以及相应 Micro-Behavior 信息,图右上部分是序列中商家引进 Micro-Behavior 信息后所对应的 Attention 权重可视化,方块颜色越深则标明 Attention 权重越大,图下部分是用户的终究成单商家“鸿鹄一品跷脚牛肉”在引进不同 Micro-Behavior 信息后的商家排名。经过比照序列中商家引进 Micro-Behavior 观察 Attention 权重的改动:

图6 引进 Micro-Behavior 和 Attention 权重联络的 Case

  • 商家序列输入只有第一列商家信息时,Attention 权重首要由商家 ID、商家 Tag、商家名等信息决议,“一膳牛跷脚牛肉”和“鸿鹄一品跷脚牛肉”商家名、商家 Tag 都较为类似因而权重最大。
  • 商家序列输入在商家信息基础上别离添加定位商家、调查商家、挑选产品的丰厚行为后,依据右侧相应每个 Micro-Behavior 的 Attention 权重大小能够看到,定位商家这列中查找进入商家权重最大,而列表页进入(主页 Feed 进入)权重相对较小,契合事务认知;调查商家这列行为中,检查扣头(扣头点击)和检查谈论(谈论标签点击)标明用户在筛选商家,其 Attention 权重远大于了解商家(店肆摘要下拉)等泛目的点击;挑选产品中的加购点击(加购产品)、查找产品(查找产品点击)行为能展现出用户的成单目的,因为该部分信息的丰厚,候选商家排名进步至第 6 位。

从以上过程中能够看到,引进 Micro-Behavior 的信息越完善,模型关于用户爱好的了解越是充沛,用户终究成单的商家也是能够得以排名靠前。

3.1.2 长序列多路情境检索

美团外卖上线至今,现已堆集了丰厚的用户行为数据。将如此丰厚的行为信息引进到模型中,是近期工业界和学术界的抢手方向,咱们在该方向上也进行了一系列探究。

最初,咱们直接将近三年的点击行为直接引进到模型中来,发现离线作用进步显着,可是带来的练习和推理的压力不行承受。在此基础上,学习了 SIM4,将候选商家的品类 ID 当作 Query,先从用户的行为序列中检索出相同品类的商家,再进行爱好建模,离线获得了不错的收益。

详细的,测验过运用二级品类和叶子品类来别离做检索,在检索后依据分位点进行最大长度截断的状况下,二级品类检索出来的序列均匀长度大约为 X,而叶子品类因为品类区分过细,检索出来的序列均匀长度大幅削减。依据离线试验评价,终究挑选了运用二级品类进行检索,在离线获得了 CXR GAUC+0.30pp 的作用。关于检索条件中,像二级品类和叶子品类这种泛化性与准确性之间的 trade off,咱们目前正在进行更进一步的探究。

为了进一步进步模型的作用,考虑到用户爱好建模从 DIN 发展到 SIM,都是依据候选商家、产品的属性,从用户的行为前史中提取对该候选商家、产品的爱好,这在传统电商场景下是行的通的,因为用户对某一商家、产品的爱好根本不会跟着他所在方位、所在时段改动(用户要买手机壳,不会因为他在家仍是在公司有改动,也不会因为他的购物时段是在早上仍是晚上而改动)。可是餐饮外卖相较于传统电商,正如前面的问题与应战中提到的,其显着的 LBS 和餐饮文明特色构成多种多样的情境,用户在不同的情境下关于不同的商家、产品的偏好是不一样的,是会改动的。因而,除了建模品类偏好外,还要进一步建模用户的地理方位偏好和时段偏好。

  • 关于地理方位偏好的建模,测验了运用用户当时所在地理方位的 geohash(一种地理方位编码,详见维基百科)/aor_id(蜂窝 ID)作为 Query 来检索用户前史行为中相同 geohash/aor_id 的商家,也依据事务经历,直接从用户的前史行为中将到用户当时恳求方位的间隔小于 C 公里的商家悉数检索出来,检索后序列的均匀长度如下表 1 所示,依据离线试验评价,终究挑选 distance<C km 检索来建模用户的地理方位偏好。公里数 C 这个参数是依据事务经历核算得到的超参,考虑到不同的用户关于间隔的容忍度可能是不一样的,如何对不同的用户在不同的情境下对该超参进行调整,还在积极探究中。
  • 关于时段偏好的建模测验了两种检索办法:从用户的前史行为中,将与当时恳求的 meal_time(依据事务将一天区分为早餐、午饭、下午茶、晚餐和夜宵)或 hour_of_day(行为小时时段)相同的商家检索出来。meal_time 区分的粒度更粗,检索出来的商家更多,从下表中也能够看到其离线成果更好,成为了建模时段偏好的终究挑选。很显着,meal_time 检索和 hour_of_day 检索也存在泛化性与准确性之间的 trade off 问题。
偏好类型 阐明 检索后序列均匀长度 CTR GAUC CXR GAUC
品类 二级品类 ID 检索 X +0.10pp +0.30pp
品类 叶子品类 ID 检索 X-65 +0.05pp +0.17pp
地理方位 distance<C km 检索 Y +0.08pp +0.29pp
地理方位 aor_id 检索 Y-52 +0.05pp +0.21pp
地理方位 geohash 检索 Y-43 +0.07pp +0.23pp
时段 meal_time 检索 Z +0.12pp +0.24pp
时段 hour_of_day 检索 Z-41 +0.07pp +0.19pp

最后,咱们将二级品类 ID 检索序列(品类偏好)、distance<C km 检索序列(地理方位偏好)以及 meal_time 检索序列(时段偏好)悉数加入到模型中,并依据各自的均匀长度等信息对不同子序列别离进行了不同的最大长度调整,模型结构如下图 7 所示:

图7 长序列多路情境检索

终究,在离线获得了 CTR GAUC+0.30pp,CXR GAUC+0.52pp 的收益,在线上获得了 UV_CXR+0.87%,UV_RPM+0.70%,PV_CTR+0.70%,首购订单占比+1.29%的收益。能够注意到上述长序列的引进,不只带来了功率的进步,还带来了新颖性的进步,剖析发现经过建模用户更长时刻的爱好,扩展了模型的视野,不再集中于用户的短期爱好,能更好地满足用户口味“短集合,长多样”的特性。

在后续的数据探查中,依据样本维度核算了二级品类 ID 检索序列、meal_time 检索序列和 distance<C km 检索序列的重合度状况。从下表能够看到,三者各自检索出的商家重合度的确非常的低,契合建模不同偏好的预期,也解说了为何三个序列叠加后,作用仍是有添加的原因。

比较序列 重合度(=重合商家个数占各自检索后序列长度的比例)
distance<C km 检索 vs 二级品类 ID 检索 9.6%,12.5%
distance<C km 检索 vs meal_time 检索 11.5%,20.3%
二级品类 ID 检索 vs meal_time 检索 13.75%,18.6%

但是,当时三路检索合并的版别,虽然能够对用户的品类偏好、地理方位偏好和时段偏好进行有用的建模,但仍是存在两个比较显着的缺点。首要,各路检索序列中仍是存在冗余信息,而且需求别离建模三个序列,带来的功能压力较大。其次,将情境割裂成一个个独自的维度进行建模,无法建模他们之间的联络,更真实准确的状况应该是对用户所在情境的不同维度进行共同建模。针对这两个问题,咱们正在情境 Cube 的概念下,开展经过一个序列共同建模用户所在情境偏好的探究作业。

下文继续介绍长序列工程优化实践。长序列模型会为线上服务带来一系列工程应战,序列长度变长极大添加了服务时数据传输本钱与模型推理本钱,需求针对这两个方面做专门优化。

  • 数据传输优化:重复检索信息压缩。以 tag_id 检索为例,因为计划中选用的是较为粗的品类区分,tag_id 本身数量是非常有限,一次恳求 batch 内候选商家所对应的 tag_id 具有非常多的重复。依据以上剖析,在同一恳求内检索时,只保存不重复的 tag_id 子序列特征,终究将全体传输数据压缩为之前的 1/7 左右,优化作用非常显着。

  • 模型推理优化

    • 1)Embedding 从内存转移到 GPU 显存存储。在模型核算模块,会依据模型输入特征在 CPU 哈希表中查询 Embedding,查询优化的中心是处理 CPU 哈希表查询功率低的问题,查询功率低首要是哈希抵触多,查询线程少形成的。为从根本上处理以上问题,咱们将 CPU 哈希表晋级为 GPU 哈希表,将模型 Embedding 从内存转移到 GPU 显存存储,并直接在 GPU 上进行查询操作。GPU 哈希表做了数据重排等优化,很多降低了哈希抵触时的数据探测次数,且运用 GPU 供应的更多线程,在发生哈希抵触时能够做到更快查询。压测标明,经过以上优化,能够运用更短的时刻处理更多的查询,查询问题得到有用处理。
    • 2)用户序列核算图折叠。长序列模块的加入,给线上核算带来了巨大压力,因而考虑对线上核算图进行优化。因为一次恳求中,在 Batch 内部,用户部分序列输入都是共同的,原始核算图对用户序列做投影时,会发生很多重复冗余核算。依据这一点,咱们在恳求模型服务时将用户侧序列的 id 查询模块以及投影核算在核算图中进行折叠,如图 8 所示,把用户侧特征 batch size 先缩小至 1,只核算一次,然后与候选商家核算 attention 时再进行打开,经过核算图折叠,极大减小了线上序列部分带来的巨大核算开支。

图8 用户序列核算图折叠

3.2 情境化多专家网络

大部分工业界的 CTR 预估模型遵从传统 Embedding&MLP 范式,将用户爱好向量、商家/产品表征和其他特征作为输入,经过朴素的多层神经网络学习特征、样本、标签之间的联络。另有学术界一些熟知的作业如 PNN5、DeepFM6、xDeepFM7、DCN8等办法,都在尽力建模特征间共现联络、特征的特异性、特征的层次结构联络、样本之间的联络等信息,而且在揭露数据集和部分特定工业场景下获得显着作用。而在 NLP 范畴,2018 年 10 月,Google 发布 BERT9模型,改写了 11 个 NLP 使命的最好水平,由此敞开了 NLP“大炼模型”时代,引爆了业界的研讨热潮。

专家混合(Mixture of Experts, MOE)模型被证明是通往容量更大、功能更强大的机器学习模型的有用途径。MOE 是依据分而治之的准则树立的,其间问题空间在几个神经网络专家之间区分,由门控网络进行监督。在 MOE 基础上,MMOE10提出一种新颖的多使命学习办法,在一切使命中同享专家子模型,使 MOE 结构习惯多使命学习,在 Google 的大规模内容引荐体系获得显着收益。

受启示于 MOE,咱们首要探究不同进口下的多专家网络模型,然后运用 MMOE 将进口情境拓宽到城市、时段等多种复杂情形中去,让各个专家专心于学习细分情境下的数据散布,学习不同情境下用户爱好,最后探究稀少化 MMOE 建模,在坚持推理功能不变的前提下进一步进步模型作用。选用情境化多专家网络还可能导致情境多维叉乘形成 Expert 海量的问题,关于这一位问题,在某些具有明确差异的情境,比方进口,咱们会选用一个 Expert 对应一个进口的计划,关于不特别明确的复杂情境,例如时刻穿插地址等,咱们会选用固定数量 Expert 对海量 Expert 降维,然后运用 Gate 网络做主动化学习。

3.2.1 多进口情境建模

美团外卖涵盖多个引荐进口,包含主页 Feed(首要流量进口),以及美食“金刚”、甜点“金刚”、夜宵“金刚”、下午茶等子频道。关于不同进口情境建模存在以下应战:

  • 各个引荐进口在流量大小、用户行为丰厚程度、商家曝光量存在显着差异,多个小进口的数据量不足主页 Feed 的 10%,导致样本堆集量有限,难以运用这些数据练习出高精度的模型。
  • 用户在各个进口下的行为存在互斥联络。例如,用户不会在同一时刻在不同频道一起下单,因而简略地将每个进口看作一个使命作为学习目标的传统多使命建模范式,难以获得较好的模型精度。
  • 为满足用户的体会,不同频道会有相应的品类规矩、时段规矩、以及特别的事务扶持规矩,这使得各频道引荐进口间有不同程度的差异与共性。不同引荐进口在用户与商家两方面存在交集的一起,在用户行为、商家散布等方面也存在不小差异,比方主页 Feed 会包含悉数商家品类,甜点饮品首要包含奶茶、咖啡、甜点等品类商家。因而,模型如何建模出各频道间的共性与差异性,一起动态地建模各个频道间的联络变得尤为重要。

图9 外卖引荐依据多进口多使命学习网络结构 AutoAdapt 示目的

咱们经过完成多进口共同建模(AutoAdapt)处理以上应战。详细的,规划了如图 9 所示的多进口情境专家模型,在模型结构的特征 Embedding 和多使命 Tower 之间构建了 Share Expert 学习悉数进口的信息,该 Expert 将始终处于激活状态;为了捕捉多进口之间的差异与联络,构建了 Domain Extract 模块,为每个进口设置一个由 MLP 组成的专家网络(Expert)。

  • 为了使每个进口对应的 Expert 能够充沛建模私有的表达,在模型练习和推理时,关于进口 i 的样本或恳求,依据进口 ID 激活其对应 Expert Di,该 Expert 发生的输出将 Xi 将直接输入到使命对应的 Tower 傍边。
  • 关于一个进口的样本或恳求,在保证该进口的 Expert 必定会被激活的状况下,以必定概率去激活其它进口的 Expert,并对这些 Expert 的输出做 Pooling 抽取,然后有用地运用到其它进口的常识。很显然,进口间的类似程度、同一样本对不同进口常识的依赖程度都是不同的,为此添加了一个 Query-Key Attention 模块去做动态概率激活。如图 9 中 Domain Extract 模块所示,对进口 i 的样本或恳求,将其本身的 Expert 的输出 Xi 作为 Query,而将其在其它进口 Expert 的输出作为 Key,Query 和 Key 间的类似性 Attention 得分即为对应 Expert 的激活概率,运用经过 Softmax 归一化后的激活概率对各个 Expert 的输出做加权聚合得到表征 Xagg,该表征也将输入给预估使命对应的 Tower。

离线试验上,咱们选用全进口数据混合练习+进口 ID 特征的模型作为基线,测验了 Multi-Task(为各个进口别离设置一个预估使命)、MMOE、STAR11等办法。因为用户在外卖各进口的消费行为存在互斥联络,且小进口的行为样本较为稀少,因而直接选用多使命的办法作用较差,而引进 MMOE 会有必定的进步。与此一起,比照阿里的 STAR,该办法中各个进口具有自己的独立网络参数,但未能捕获各个进口间的联络,在外卖引荐场景中进步有限。比较之下,AutoAdapt 在主进口和小的进口上都完成了较大的进步。

办法/不同进口 CXR GAUC 进步 主页 Feed domain 1 domain 2 domain 3 domain 4 domain 5 domain 6 domain 7
Multi-Task +0.10pp +0.01pp +0.15pp +0.24pp +0.55pp +0.32pp +0.60pp +0.79pp
MMOE +0.27pp +0.13pp +0.22pp +0.70pp +0.61pp +0.41pp +0.84pp +0.90pp
STAR +0.32pp +0.11pp +0.26pp +0.73pp +0.66pp +0.40pp +0.81pp +1.05pp
AutoAdapt +0.38pp +0.19pp +0.33pp +0.82pp +0.79pp +0.50pp +0.95pp +1.27pp

为了对 Attention 发生的激活权重做可视化剖析,详细的,咱们在评价集上中对 Attention 的成果依据不同进口 Query 做分组核算求均匀,如下图 10 所示,纵轴代表作为 Query 的进口、横轴代表作为 Key 的进口,图中每个点的值代表某一进口对作为 Query-Key 状况下 Attention score 的均匀值。例如,第二行代表着美食金刚(D1)作为 Query 时,对其它进口 Expert 的均匀激活概率,发现模型能够学习到契合认知的进口类似联络,例如,当下午茶样本(D7)作为 Query 时,它和甜点饮品(D2) Expert 的均匀激活概率为 0.3,显着高于对其它进口的激活概率,另外美食金刚(D1)和正餐频道(D5)相同有着很高的相关性。

图10 不同进口 Attention 权重热力求

该处理计划不只完成了主页 Feed、美食“金刚”、甜点饮品等流量进口间模型的共同,一起也为各个进口带来了显着的离线目标收益和线上目标的添加。经过联合建模,小进口能够有用运用到主页 Feed 的丰厚信息,使得线上和离线作用进步显着,此外,关于主页 Feed,该计划相同有显着的作用进步,不同场景线上收益如下表所示:

办法/不同进口 UV_RPM 进步 主页 Feed domain 1 domain 2 domain 3 domain 4 domain 5 domain 6 domain 7
在线 UV_RPM +0.97% +0.62% +0.77% +1.61% +0.99% +1.06% +1.28% +1.43%

3.2.2 情境化稠密 MMOE

专家网络是情境化建模的首要手法之一,模型能够依据不同情境主动挑选需求激活的参数参加推理达到全体更高的精度水平。咱们发现在 Share-Bottom CTR/CXR 多目标结构基础上,引进 MMOE 结构能够带来显着的离线 CTR/CXR AUC 收益(如下表所示),能够发现当 Experts 数量达到 64 时,CTR GAUC 和 CXR GAUC 别离有 0.3pp 与 0.4pp 左右的进步。

试验/比照 Share-Bottom 进步 CTR AUC CTR GAUC CXR AUC CXR GAUC
MMOE(4Experts) +0.23pp +0.12pp +0.14pp +0.22pp
MMOE(8Experts) +0.30pp +0.24pp +0.15pp +0.28pp
MMOE(16Experts) +0.37pp +0.16pp +0.21pp +0.37pp
MMOE(32Experts) +0.42pp +0.30pp +0.25pp +0.40pp
MMOE(64Experts) +0.44pp +0.41pp +0.23pp +0.48pp

引进大数量级 Experts 的 MMOE 结构可带来较显着的离线收益,但一起也会相应带来离线练习以及线上服务本钱的添加,需求做作用与功率之间的权衡。咱们在坚持必定离线练习时长与在线 Latency 束缚下,挑选了 4Experts MMOE 版别作为新的基线模型,并做详细的探究,进行较为细致的优化,包含:

  • 引进残差衔接:受 Switch Transformer12启示,引进 embedding layer 与 Experts 输出层之间的残差衔接,用来缓解梯度消失,离线 CXR GAUC+0.1pp。
  • MMOE 的 Gate 优化:测验在 MMOE 的 Gate 的 embedding layer 中只输入时段、城市等强情境特征(即依据情境来为每个使命挑选 Expert),并在试验中发现相较于在 Gate 中运用一切特征,这种只用场景强相关特征来构建 Gate 的办法反而会获得必定离线 GAUC 进步,离线 CXR GAUC+0.1pp。
  • 非线形激活:多项 NLP 作业如 B Zoph13、Chen14等指出,选用非线形激活能够进一步进步大规模模型作用,咱们运用 Gelu 替换 leaky relu 激活函数,离线 CXR GAUC+0.11pp。

终究,情境化稠密 MMOE 在线获得了 UV_RPM+0.75%,PV_CTR+0.89%,曝光新颖性 +1.51% 的收益。

3.2.3 情境化稀少 MMOE

在探究得到稠密 MMOE 最优版别之后,咱们开始对稀少 MMOE 模型进行探究。学习 Google 提出的 Sparse Expert Model,如 Switch Transformer 等,咱们选用 Top K MMOE 办法进行测验。其中心思维在于,每条样本依据 Gate 的核算成果,从一切 N 个 Experts 的输出中只选取 K 个(K<<N)进行后续核算。下表试验成果标明,选用 32Experts 比照 4Experts 在不同进口离线目标均有显着进步,一起 Top K MMOE(32Experts 选 4)与 FLOPs 相同 MMOE 4Experts 比较在不同进口都具有显着的优势,作用接近 MMOE 32experts。

办法/不同进口 CXR GAUC 进步 主页 Feed domain2 domain 3 domain6 domain 7
MMOE(4Experts) +0.18pp +0.13pp +0.25pp +0.41pp -0.37pp
MMOE(32Experts) +0.33pp +0.29pp +0.37pp +0.46pp -0.03pp
Top K MMOE(32Experts 选 4) +0.29pp +0.26pp +0.38pp +0.53pp +0.19pp

继续剖析稀少 MMOE 是否能学到各个切片下的共性与差异性,对 MMOE 和 Top K MMOE 的 CTR 使命在各个 domain 上的 Expert Gate 散布进行可视化。能够发现,稀少 Top-K 办法比较稠密办法,更能学到依据不同进口、不一起段、不同使命来挑选不同的 Expert 进行 serving。例如,针对不同的时段情境,图 11 中下午茶进口与早餐进口的散布显着不同、图 12 中主页进口的夜宵时段与非夜宵时段的散布显着不同;针对模型中不同的使命目标,如图 13 中 CTR/CXR 使命的散布也显着不同,这些都与实践中的事务认知相符,标明稀少 MMOE 中不同专家学习到了不同情境、不同使命之间的差异性。

图11 Top K MMOE中Expert Gate在不同进口上的散布的可视化剖析

图12 Top K MMOE中Expert Gate在主页不一起段散布的可视化剖析

图13 Top K MMOE中Expert Gate在不同使命上的散布可视化剖析

4. 总结和展望

得益于 Cube 概念,咱们能够继续探究更多情境,以及优化该情境下的冷启动问题。例如用户处于异地时,能够经过比较情形 Cube 的类似性,找到近似情形下有较老练行为的用户,并将其爱好偏好及其行为搬迁过来(完成中为每个情形树立一个活跃用户池),达到缓解冷启动阶段用户体会差的问题。

此外,在情境化长序列检索中,往往存在单路检索信息较少,全体检索线上功能差的问题,咱们考虑探究新的多属性检索机制将多路检索合并为单路检索,在进步检索速度的一起扩大检索信息的丰厚程度来进一步进步模型作用;在稀少专家网络上,咱们发现引荐模型存在严峻的参数饱和现象:当稠密参数添加到必定程度时,模型作用进步会快速衰减。因而,经过简略扩大专家数量来进步作用是不行取的,在未来将考虑结合 AutoML、穿插网络等手法进步参数运用功率,寻求在引荐场景落地稀少专家网络的工业级处理计划。

5. 本文作者

瑞东、俊洁、乐然、覃禹、秀峰、王超、张鹏、尹斌、北海等,均来自到家事业群/到家研发渠道/查找引荐技能部。

6. 参考文献

  • [1] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction. SIGKDD 2018.
  • [2] Zhou G, Mou N, Fan Y, et al. Deep interest evolution network for click-through rate prediction. AAAI 2019.
  • [3] Pi Q, Bian W, Zhou G, et al. Practice on long sequential user behavior modeling for click-through rate prediction. SIGKDD 2019.
  • [4] Pi Q, Zhou G, Zhang Y, et al. Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction. CIKM 2020.
  • [5] Qu Y, Cai H, Ren K, et al. Product-based neural networks for user response prediction. ICDM 2016.
  • [6] Guo H, Tang R, Ye Y, et al. DeepFM: a factorization-machine based neural network for CTR prediction. arXiv:1703.04247, 2017.
  • [7] Jianxun Lian, et al. xdeepfm: Combining explicit and implicit feature interactions for recommender systems. KDD 2018.
  • [8] Wang R, Shivanna R, Cheng D, et al. Dcn v2: Improved deep & cross network and practical lessons for web-scale learning to rank systems. WWW 2021.
  • [9] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv:1810.04805, 2018.
  • [10] Ma J, Zhao Z, Yi X, et al. Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-experts. KDD 2018.
  • [11] Sheng X R, Zhao L, Zhou G, et al. One model to serve all: Star topology adaptive recommender for multi-domain ctr prediction. CIKM 2021.
  • [12] Fedus W, Zoph B, Shazeer N. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961, 2021.
  • [13] Zoph B, Bello I, Kumar S, et al. Designing effective sparse expert models. arXiv 2202.08906, 2022.
  • [14] Chen Z, Deng H Wu Y, Gu Q. Towards Understanding Mixture of Experts in Deep Learning. arXiv:2208.02813, 2022.
  • [15] Zhou M, Ding Z, Tang J, et al. Micro behaviors: A new perspective in e-commerce recommender systems. WSDM 2018.
  • [16] Zou X, Hu Z, Zhao Y, et al. Automatic Expert Selection for Multi-Scenario and Multi-Task Search. SIGIR 2022.
  • [17] Bai T, Xiao Y, Wu B, et al. A Contrastive Sharing Model for Multi-Task Recommendation. WWW 2022

阅读美团技能团队更多技能文章合集

前端 | 算法 | 后端 | 数据 | 安全 | 运维 | iOS | Android | 测试

| 在大众号菜单栏对话框回复【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可检查美团技能团队历年技能文章合集。

| 本文系美团技能团队出品,著作权归属美团。欢迎出于共享和沟通等非商业目的转载或运用本文内容,敬请注明“内容转载自美团技能团队”。本文未经许可,不得进行商业性转载或许运用。任何商用行为,请发送邮件至tech@meituan.com请求授权。