美团外卖推荐关于用户新颖体验优化的技术探索

外卖场景下，用户“复购”特色强、下单频次高，既想下单老商家，也会想换换“新口味”。为更好平衡用户的复购、尝新体会，外卖引荐团队从2022年起开端持续投入，构建了外卖场景新颖性引荐的体系化处理计划。截止现在，外卖主页用户曝光新颖性累计提高19%+，新颖好评率累计提高7%+，用户新颖体会Case率累计下降18%+。本文将详细介绍外卖主页Feed用户新颖体会优化过程中面对的挑战、处理思路以及事务考虑。

1 布景介绍

1.1 为什么要优化用户新颖性？

2022年头，美团外卖查找引荐技能团队经过内部访谈、外部用研，发现用户对外卖主页Feed引荐的新颖性问题诟病较多：主页Feed引荐了过多的复购复点商家，无法满意用户尝新的诉求。

咱们经过剖析，发现首要原因是：前史上战略优化^[1]方针都聚集在提高交易功率（RPM）和大局GMV上，对用户爱好的探究缺乏，因而在外卖主页Feed的前几位，都是为用户重复曝光了过多复购复点商家，而现有战略也只是对前史购买商家进行降权排序，作用极其有限。随着事务的开展，假如主页Feed引荐的优化方针仍旧只重视交易功率而忽视用户新颖体会，久而久之用户难以跳出“信息茧房”^[2]，其阅览体会也会变得越来越差。因而，咱们将用户新颖性加入了外卖主页Feed引荐的优化方针中。

1.2 外卖场景下新颖性引荐的重要性

业界许多电商渠道的引荐体系，候选池动辄几亿~几十亿不等，待分发内容十分多，要点都是做相关性优化以提高引荐准确度，往往直接过滤掉用户从前看过、买过的内容产品，新颖性问题并不杰出。但在外卖场景下，候选商家少、用户复购/下单频次高，决定了“直接过滤用户看过、下单过”的战略既不现实、也不合理。

一方面，受LBS束缚，外卖候选商家量级在几百~几千，曝光商家既要匹配用户饮食习惯，又要考虑用户复购的需求，因而难免重复曝光部分商家；另一方面，外卖用户下单频次很高，不期望一天或许几天之内反复品味相同的食物，用户有着很强的尝新诉求。故而新颖性引荐是用户体会的中心问题之一，平衡好用户的复购、尝新意图，显得极为要害。

2 问题和挑战

新颖性引荐的方针是优化用户新颖体会，和主页Feed一向以来的优化方针（交易功率RPM、大局GMV）区别较大。详细到餐饮场景，优化新颖性首要的问题如下：

对用户来说，什么是新颖性？即怎么将用户的直接感受，量化为准确的新颖性界说。
新颖性的优化方针怎么规划？即怎么将新颖界说转化为引荐体系的观测方针，再进一步，怎么量化体系观测方针和用户新颖感受之间的改变联系？
新颖性问题是否存在处理的终态？即比照持续迭代的功率问题，新颖性问题是能被彻底处理，仍是需求持续迭代。

3 新颖性概述

美团外卖引荐体系评价方针，长时间以来首要包含功率方针（UV_CTR、UV_CXR、UV_RPM等）、生态方针（主题曝光占比、产品曝光占比、闪购曝光占比等）、用户体会方针（多样性）等多个方面。可是要优化新颖体会，有必要要有科学合理、战略可干涉的新颖性方针，而这又依靠于“新颖”的界说。

3.1 什么是用户新颖性

首要，咱们要回答“对用户来说，什么是新颖的”。外卖主页Feed，承载了商家、产品、主题卡片等多种异构流量的分发，其间用户看到的卡片90%左右都是商家卡片，为此，咱们以为用户新颖性意味着其看到的商家是否新颖。

怎么判别一个商家是否新颖？一方面，业界^[3][4][5][6]给出的新颖界说首要有：新颖性（Novelty/Unexpectedness）、惊喜度（Serendipity）。新颖性衡量的是给用户引荐没有见过的物品，而惊喜度（Serendipity）衡量的是引荐和用户前史爱好不类似、却满意的引荐。受外卖LBS供应少的束缚，要求“用户没见过”不太合理。

与此一起，为用户带来更好选购体会，直觉上看，新颖商家至少应该是让用户感到惊喜的引荐成果，看上去惊喜度的界说更满意要求。另一方面，在用户调研中发现：引起用户恶感的在于“一向给用户引荐同几家”商家，导致其没有机会看到更多“没见过可是适宜自己口味的新商家”。所以，惊喜度要求“前史爱好不类似”也不完全满意实践事务需求。

为此，归纳考虑外卖候选商家少、用户高复购高下单频次的特性，并结合了业界惊喜度、新颖性的界说和用研结论，咱们以为：新颖商家，应该满意“用户近一段时间没见过、没吃过，但却愿意为引荐买单”的要求。出于事务经历，实践采用的新颖商家界说是：用户在外卖大局最近7天没有见过、或许30天没有点击、或许90天没有完单的商家。能够看出，咱们的界说和传统新颖性（ Novelty/Unexpectedness）有着显着的差异。

3.2 新颖性评价体系

从上一章节的剖析看，新颖性引荐要首要处理在短时间内反复引荐“来来回回那几家商家”的问题，为用户曝光更多新颖商家以满意其尝新探究需求，从而提高其引荐满意度。

“曝光->点击->下单”选购链路中的曝光环节，直接决定了用户感知“引荐成果好坏”的第一印象，覆盖的用户也更全，因而咱们将“曝光新颖性@Top N”（下文简称曝光新颖性），而不是点击/完单新颖性作为新颖性引荐的中心优化方针，其物理含义是用户在主页Feed列表前N位看到的新颖商家占比。再进一步，咱们以为列表前几位对用户体会影响愈加显着，因而“前N个Item”能更好地表现用户爱好区域的新颖性改变，实践中N=10。

尽管，曝光新颖性防止了无法衡量非点击/完单用户的新颖性改变、点击/完单环节的漏斗过深带来干涉作用不显着的问题，但假如只重视曝光漏斗，极点状况便是给用户悉数曝光新颖商家，一旦新颖性商家质量很差那便是“恶感”而不是“惊喜”，无法满意上文中要求新颖商家中“用户愿意为引荐买单”的束缚。为此，咱们引进了点击新颖性、完单新颖性（点击、完单商家中新颖商家的占比）作为辅助观测方针，并将列表UV_RPM（千人曝光GMV）作为中心束缚方针（要求列表UV_RPM不降或微降）。

对咱们来说，“曝光新颖性”为战略优化清晰了方向，并能很好的衡量事务经历上以为的新颖性改变。假如该方针提高显着，用户的新颖性感受仍一成不变，那也并不合理。为此，实践中咱们经过用研对用户投进新颖性问卷，并引进了新颖好评率（用户对引荐新颖性由低到高打分1-5分，表明>=4分用户的占比）、新颖性Case率（问卷中自动反应新颖体会Bad Case的份额）2个方针来观测“曝光新颖性”改进后用户新颖感受改变。

4 新颖商家引荐计划

主页Feed的引荐链路（如下图1所示）包含“召回->精排->混排”3个阶段，其优化方针都以功率为主，模型泛化性、战略的探究性缺乏，对曝光新颖性造成了不同程度的危害。所以，咱们在引荐链路的各个阶段都进行了新颖引荐优化，其间：召回和精排阶段的方针在于优化模型的泛化性；混排阶段要点测验优化引荐战略的探究性，一起因为其靠近事务最上游、受战略干涉更为直接故而是战略优化的重心。在前端展现阶段，为了更直接地提高用户新颖体感，咱们借助交互式引荐^[7]的才能做了测验。

新颖商家引荐全体计划如下图2所示。首要，咱们环绕召回扩大新颖供应、精排提高模型泛化性、混排新颖商家个性化排序和起浮插卡、前端提高交互体会4个方面，体系性地构建了美团外卖主页Feed的新颖商家引荐计划。其次，咱们也将业界常用的“直接过滤用户下单过”的战略升级为前史成单商家降位排序、实时点击成单商家分数重校准排序，以完成对新颖性负向体会的Bad Case兜底。因受限于篇幅束缚，部分计划在本文中并未详述。

4.1 新颖商家供应补召回

召回阶段的新颖商家引荐和冷启动、长尾等问题有共通之处，常见冷启动处理思路有：a）运用比照学习^[8]、元学习^[9]等计划使得模型在小样本上具备快速学习才能的；b）运用包含图学习^[11]等方法发掘和弥补实体信息以获得更好的Embedding表征等。

在外卖场景下，新颖商家曝光高达渠道商家曝光流量的40%，因而无实体信息、样本少的问题在新颖引荐使命中并不杰出。咱们的问题更多是模型泛化性缺乏，高估了用户近期有过交互的商家因而引荐了过多“复购”商家，所以战略重心放在了经过优化Embedding表征来提高旁路召回的多样性上，详细作业包含：

首要，咱们优化了I2I旁路召回。现有I2I召回的商家类似性核算依靠的是Word2Vec向量，首要存在2个问题：a）运用一段时间内的交互数据构建I2I的Trigger，这类样本天然遭到地舆规模的束缚，不能很好地捕捉跨地域的商家类似性；b）只考虑了商家序列，未运用用户、商家侧丰厚的Side-information，对新用户、长尾商家不友好。

而主召回链路的双塔^[11]模型在练习中引进了丰厚的商家侧Side-information，经过对商家侧顶层Embedding表征进行聚类剖析、Case剖析发现：商家侧的顶层Embedding表征在向量空间上有着显着的商家品类聚类作用（如图3左图所示），以及发掘跨地域类似商家的才能（如图3右图所示，深圳的猪脚饭检索到遵义的猪脚饭），所以咱们测验用双塔模型的商家Embedding替换原有根据Word2Vec完成的商家Embedding（Trigger运用的是用户前史点击、完单商家）。一起，咱们运用双塔商家Embedding向量，额外新增了一路I2I新颖商家召回以提高新颖商家的供应。

其次，咱们新增了GCN旁路召回，运用GCN网络发掘用户、商家之间的高阶关联性改进引荐长尾问题。实践中测验了建模“用户-商家”联系的U2I召回和建模“Query—商家”联系的I2I召回。

这儿以U2I召回为例介绍GCN建模：模型结构引进了用户行为构图、新颖性构图两部分以平衡功率、新颖性，丢失函数如公式1（r表明完单、点击、新颖性使命）所示。用户行为构图包含用户点击、下单2个主使命；而新颖性构图部分，为处理无差别引进新颖商家导致模型噪音过大的问题，对完单、点击新颖商家进行了加权采样。终究，将新颖性采样子图作为辅助使命融入2个主使命的练习过程中，模型在构建高效的用户—商家表明的一起，也能具备发现新颖商家的才能。

终究，线上试验发现，I2I旁路召回Embedding向量表征优化带来了线上1%左右的曝光新颖性收益。而后续的I2I新颖商家召回、GCN召回的计划，其新颖性收益都缺乏0.5%，剖析和外卖的LBS供应较少导致召回侧收益空间相对较低有关。初期从召回链路的改造成本考虑，咱们的战略要点在旁路召回，可是随着迭代的进行，环绕双塔主召回也从T+1更新、模型丢失等方向做了探究并取得了线上收益，在此不做详细的打开。

4.2 精排模型泛化性提高

主页Feed的排序模型首要以UV_CXR为导向，要点重视用户点击、完单等反应，简略对前史点击成单商家高估、对长尾的新颖商家轻视。为了提高模型对长尾新颖商家的预估准度，能够从模型特征、丢失、结构等多个方面下手。

其间，相对模型特征和丢失来说，结构优化和新颖性的联系存在更大的不确认性，为在短期内给用户体感带来显着的改变，优先投入到了引进泛化特征、优化模型丢失两个方向上，线上用户曝光新颖性累计提高3%+。

4.2.1 正负反应特征

一方面，为更好地捕捉用户尝新、复购意图的改变，咱们要点优化了负反应特征和长序列特征。首要，在模型中引进负反应特征以便于模型学习更好捕捉“负反应形式”。其次，咱们经过行为数据，来更好捕捉用户尝新、复购意图等多个爱好的周期改变，为了下降长序列带来的练习和推理的压力，除工程的优化外，咱们参考了SIM^[12]的作业。

首要，咱们将候选商家的品类ID当作Query，从用户的行为序列中检索出相同品类的商家，再进行爱好建模。详细的，咱们结合外卖的LBS、就餐特色，规划了Distance（用户到商家的距离小于xx Km）、Mealtime（将一天分为早餐、午饭、下午茶、晚餐和宵夜）和Tag_id（商家品类，比方奶茶、甜点等）这3种检索路径，从用户前史行为中检索出与当次拜访最相关性的行为，以精确刻画当时情境下的用户偏好。终究，线上试验UV_RPM显着增加，用户曝光新颖性+1.0%。另一方面，咱们也在探究头图、菜品特色等多模态特征关于提高模型泛化性的协助。

4.2.2 新颖商家预估分纠偏

非凸优化导致DNN模型存在不行重复性^[13][14]的问题：运用相同的架构+数据+超参，练习两版模型，其计算方针比方AUC或许挨近，可是详细到每个样本的猜测成果，却或许存在较大差异。

造成这个现象的原因有许多，比方随机初始化、散布式练习本来就自带随机性、数值误差等^[15]。详细到新颖性问题，表现在：尽管咱们练习得到的DNN模型的准确率十分挨近，但关于特定的新颖性样本，其预估分很或许相差较大（显着偏高或偏低），因而经过规划新的优化方针，在保证模型预估准确率不变状况下，使得模型到达的部分最优状况倾向“新颖商家预估分比较高”。这样，就能够在在不丢失列表UV_RPM的前提下，提高新颖商家的曝光量。

在实践中，咱们在现有的穿插熵丢失的基础上，结合新颖商家在曝光、点击、成单行为上的差异，对新颖商家引进如公式2所示的丢失。线上试验发现，列表UV_RPM相等的状况下，曝光新颖性+1.95%。

4.3 混排个性化排序和动态插卡战略

混排阶段，咱们的方针是经过公式加权排序、固定位插卡、实时/前史成单降权排序等多种手法优化引荐体系的探究性以提高用户新颖性。这几种手法的优点是可解释性强，可是转化率都比较低。

事务上以为：每个用户都有尝新诉求，差异在于其尝新需求的强弱，新颖性引荐应该和用户尝新志愿相匹配。假如调整后的新颖引荐成果无法精准匹配用户尝新诉求，反而很简略带来更差的用户体会。为此，咱们根据预估的用户新颖意图强弱，完成了根据ES模型的新颖商家个性化排序战略，并经过动态方位分配完成了新颖商家的起浮刺进。混排阶段的全体优化，用户曝光新颖性累计提高15%+。

4.3.1 新颖意图预估

初期，经过数据剖析找到和用户新颖性较为相关的特征，运用人工规划的公式核算每个用户的新颖意图分，线上试验发现新颖性有较为显着的提高。可是，人工规划公式的方法迭代功率、准确率都较低，无法即时捕捉用户在不一起段场景下的新颖需求改变，久而久之，难以有用支撑整个新颖引荐战略的迭代。为此，咱们构建了新颖性意图预估模型，经过模型网络抽象出多个行为特征之间的穿插信息，预估用户在当时场景下的即时意图分，以满意不同用户在不同情境下的新颖商家阅览、消费需求。

模型规划思路简述如下：首要，模型Label采用的是用户在当时请求下是否点击新颖商家，咱们首要经过试验比较了新颖点击、完单等多种计划确认了该Label，这也从旁边面印证了挑选漏斗更为靠前“曝光新颖性”作为优化方针的合理性。其次，模型特征上除用户计算特征、上下文场景特征外，首要引进了完单新颖商家占比、新颖商家曝光点击等新颖性相关的特征，丢失函数运用了穿插熵丢失。终究，考虑线上体系功能影响，模型运用了简略的MLP网络，线上服务阶段，为下降体系耗时，采用了模型并行调用的计划。线上试验在UV_RPM相等的状况下，用户曝光新颖性+2.28%。

4.3.2 新颖商家个性化排序

在混排阶段，外卖引荐为了灵敏统筹功率、生态、事务规矩等多种方针参考了Linkedin^[16]、Facebook^[17]相关的作业，从帕累托最优的角度动身首要经过形如“a*pctr+b*pcxr+c*other”的公式对候选内容进行异构排序。

一起，为了完成对不同场景下用户的差异化、个性化排序，咱们根据ES算法^[18]针对pCTR、pCXR等中心功率方针建设了个性化的超参数的计划，其间心思想是：经过扰动神经网络参数，收集用户的反应核算Reward并确认模型参数更新的方向和份额，并输出排序参数运用于对应的请求，完成个性化的排序战略。

初期为提高迭代速度，咱们直接采用“在排序公式中运用人工设置的固定系数加权”的计划对新颖商家排序，取得了必定收益，可是UV_RPM丢失较大，原因在于无法根据用户在不一起段、场景下的个性化新颖消费需求进行差异化排序。为此，咱们在后续迭代中借鉴已有的ES个性化超参数计划，完成了对新颖商家“千人千面”个性化排序。

考虑到外卖引荐体系的事务场景复杂度、用户行为易受多方面要素影响（优惠券、事务干涉等）等问题，根据新颖性优化的ES模型计划详细如下：

首要，在Reward方面，为引导模型学习功率、新颖性之间的联系，在原有Reward的基础上增加了新颖性，终究Reward为：a * cxr + b* 新颖商家曝光占比，既提高新颖商家曝光占比方针，又能尽或许削减对列表UVRPM的损害。进一步的，为了更好地衡量模型动作带来的净收益，在Reward中引进了优势函数^[19]V(s, a) = Q(s, a) – V(s)，即在原本的动作状况价值Q(s, a)的基础上，减去Batch内Reward的均值，使模型学习到动作相较于均匀而言带来的优势V(s, a)，进一步为处理Batch内均值无法消除人群状况价值误差的问题，咱们经过模型预估了用户个性化的状况价值替代了原有的“Batch内reward均值”计划。

其次，在模型特征方面，咱们在原有特征基础上，经过决议计划树模型筛选出与新颖性相关度较高的用户场景特征、新颖性特征、前史行为特征等。终究，在模型网络方面参考已有经历挑选结构简略的MLP网络。经过一周左右的在线学习后，ES模型决议计划Action散布逐渐趋向安稳状况，如下图4所示：

剖析发现，ES模型在统筹功率的前提下，完成了新颖商家的个性化排序。如图5所示的Case，展现了一个实践中有显着新颖偏好的用户：首要相较于上线第1天，模型在第20天现已能安稳、有用地学习到该用户新颖倾向；其次，模型action_novelty在不一起段下，也学习到了该用户新颖偏好的改变。终究，线上试验在UV_RPM相等的状况下，用户曝光新颖性累计提高5+%。

4.3.3 新颖商家动态插卡

在上一章节，新颖商家个性化排序的计划简略出现新颖商家“扎堆”的现象，用户体感不好，简略的计划是采用“固定位”的计划刺进新颖商家。为了处理固定位流量转化功率低、不考虑用户阅览深度而导致曝光功率低的问题，咱们规划了个性化的新颖商家起浮刺进计划：根据用户新颖意图，在适宜的方位，刺进适宜的新颖商家。

初期，咱们经过两种简略战略验证动态插卡的可行性：计划1是“按方位均匀插卡”，用户在前N1、N2个方位至少要有M1、M2个新颖商家，假如没有，就应该在N1、N2个方位进行刺进。计划2是“结合用户阅览深度规划个性化方位”，结合用户新颖意图、用户阅览深度规划了“意图越强，插卡数量越多”的战略，其间插卡方位根据用户前史阅览深度的分位数核算得出。试验证明，这两种战略对新颖性都有显着的收益。

可是，这两种决议计划插卡方位的战略，对用户个性化信息运用缺乏，既没有考虑用户在不同方位的新颖偏好、也没有考虑上下文对当时刺进新颖商家的影响。所以，咱们迭代了模型化计划。

在模型选型上，挑选了强化学习的计划，其原因在于：一方面，根据监督学习的ML算法往往是经过拟合用户前史行为数据得到预估成果，难以捕捉外卖场景下快速转换的用户尝新、复购意图（高频用户一天或许转化屡次）；另一方面，监督学习往往根据贪心战略给出单次最优成果，无法重视用户长时间收益的改变。而强化学习经过不同状况决议计划不同的动作，始终建模累计收益，能够有用的进行E&E（Exploration and Exploitation），因而更符合新颖商家动态插卡的要求。

首要，咱们参考了广告流量分配^[20]问题，将新颖商家动卡插卡的问题简化建模如公式3所示的事务问题：在UV_RPM、流量占比、用户体会的束缚下，经过决议计划哪些方位放入新颖商家，以最大化用户新颖性。其间功率束缚表明插卡前后列表GMV降幅不高于P，流量束缚表明全体新颖商家曝光占比，不高于某个阈值以防止极点问题。此外，还有插卡方位打散、插卡方位上限等体会束缚。

其次，这个问题归于典型的多臂老虎机（Multi-Armed Bandit）问题：无论当时（列表前10位）方位是否能够刺进新颖商家，咱们都期望列表RPM期望最大，而MAB就能够根据RPM期望对当时是否刺进新商家的决议计划进行Explore或许Exploit，也最小化列表RPM丢失。常见的MAB算法有LinUCB、Thompson采样等。

咱们根据Thompson的计划做了测验，验证传统的强化学习计划在方位决议计划上的作用：详细的，运用Beta散布拟合用户在每个方位的新颖、非新颖商家完单期望，每次只需求挑选对用户RPM的收益最大的方法（该方位下，刺进一个新颖商家的完单期望，高于原有非新颖商家的完单期望），来决议计划当时方位是否刺进新颖商家。其原理在于Thompson采样经过Beta散布维护用户在当时方位关于新颖、非新颖商家的完单期望。

Beta散布（见如下公式4）咱们经过计算用户在每个方位的前史新颖、非新颖商家的曝光/完单（或许点击，用于处理完单数据稀疏的问题）前史数据拟合用户偏好，其期望便是对应方位下新颖商家、非新颖商家的CXR。每次决议计划的时候，只需求比较新颖商家、非新颖商家的Beta散布完单期望（见公式5），新颖商家期望更大则在当时方位刺进新颖商家，一起这种多臂赌博机的思想能根据用户反应不断拟合用户逐方位的新颖偏好。其间Intentionscore表明4.3.1节的新颖性意图分。

为处理Thompson采样等算法泛化性缺乏的问题，探究了深度强化学习的计划。考虑到DQN完成简略、其Off-policty十分适宜引荐场景的优点，咱们最开端就参考了Cross DQN^[21]、DEAR^[22]的模型结构，经过D3QN模型决议计划当时用户能够插卡新颖商家的方位：模型输出的是N维的Multi-hot vector（1表明当时方位插卡新颖商家），State考虑了用户和商家前史计算特征、列表上下文的信息等，奖赏函数考虑了完单金额、曝光新颖性以及用户体会。该计划仍在优化傍边，不再打开介绍。

终究，线上试验，UV_RPM跌幅不超越0.5%的状况下，用户曝光新颖性提高8%+。

4.4 交互引荐优化选购体会

交互式引荐是一种实时引荐产品模块，首要运用用户的实时行为、以实时互动的方法进行引荐：用户从主页Feed进入商家详情页并退出之后，动态地刺进新的内容到引荐列表中。优势在于能够实时感知用户行为并判别用户意图，从而动态插卡反应，增强用户交互体会、新颖感受。

在不丢失用户UV_RPM的前提下，咱们在现有的功率（pCXR）排序的基础上，引进了新颖性方针，进一步优化用户新颖体会。线上试验用户曝光新颖性提高+1.20%。

5 总结与展望

本文介绍了外卖引荐团队2022年至今的用户新颖体会全体优化计划，首要包含：

从“什么是新颖性”问题动身，出于事务经历规划了外卖餐饮场景下的“新颖商家”的界说，确认了“曝光新颖性”的优化方针和与之相关的用户体会方针“新颖好评率”、“自动反应率”等，用于指导新颖性引荐的战略优化。
环绕“怎么优化新颖性”的问题，从用户新颖意图预估动身，构建了“优化旁路召回扩大新颖商家供应，在模型中引进用户正负反应行为和新颖性方针提高新颖商家预估准度；运用强化学习，完成新颖商家个性化排序和千人千面的动态插卡；引进交互式引荐，以实时互动的方法给用户带来又新又好选购体会”的计划；体系地提高了外卖引荐的泛化性、发现性，以更好匹配用户尝新的意图。

用户新颖体会提高显着：用户前10位均匀比之前多看到0.6个新颖商家，其间事务方针收益如下：

体系优化方针：曝光新颖性累计提高19%+，完单新颖性提高25%+，用户均匀阅览深度提高1%+，用户均匀曝光次数提高1.5%+。
用户直接体会方针：新颖性五星好评率提高7%+，一星差评率下降4%+，用户自动反应率下降18%+。

优化过程中咱们也看到：

当时大部分功率优化战略会丢失新颖性：在较长的一段时间内，需求持续重视并优化用户新颖体会，以防止随着功率的持续优化导致用户新颖性退化到之前水平。
比照低频用户，中高频用户（月拜访频次>=13）其尝新志愿和引荐新颖性的匹配程度低7%+，自动反应新颖性的Bad Case的份额高4倍多，新颖性优化后的DAU改变更为正向：不同频次的用户集体新颖性诉求存在显着差异，其优化确实应以匹配用户尝新意图为准。

尽管咱们做了许多优化，但仍存在较多问题亟待处理，未来咱们将从以下几方面打开：

新颖商家界说迭代：持续探究和迭代什么样的新颖商家，愈加科学合理地进行引荐，运用户愿意为之买单。
新颖性引荐战略优化：运用因果揣度优化用户意图预估准度，从样本、模型结构、多模态等角度提高精排模型表征才能，探究强化学习下更为情境化的“一人多位”灵敏位次刺进才能，以及新颖体会优化和功率优化怎么协同并进。
交互形式迭代：运用交互式引荐、重排序、视频内容引荐等产品形式为用户带来更好的交互体会。

一向以来，美团外卖都在尽力为用户（实时性、多样性、满意率等）、商家（流量公平性分配等）、骑手（履约等）提供更好的体会而尽力。咱们期望帮我们吃得更好，生活更好。

6 作者简介

亚成，若静，俊洁，小洋，国峰，李睿，昊雨，子相，彬彬，姜飞，北海等，来自到家工作群/到家研制渠道/查找引荐技能部。

7 参考文献

[1] 美团外卖引荐情境化智能流量分发的实践与探究
[2] Li, Pan , et al. “PURS: Personalized Unexpected Recommender System for Improving User Satisfaction.” RecSys ’20: Fourteenth ACM Conference on Recommender Systems ACM, 2020.
[3] Kaminskas, Marius , and D. Bridge . “Diversity, Serendipity, Novelty, and Coverage: A Survey and Empirical Analysis of Beyond-Accuracy Objectives in Recommender Systems.” The ACM Transactions on Interactive Intelligent Systems 7.1(2016):1-42.
[4] Adamopoulos, Panagiotis , and A. Tuzhilin . On Unexpectedness in Recommender Systems: Or How to Better Expect the Unexpected. ACM, 2015.
[5] Ge, Mouzhi , C. Delgado-Battenfeld , and D. Jannach . “Beyond accuracy: evaluating recommender systems by coverage and serendipity.” Acm Conference on Recommender Systems ACM, 2010.
[6] Chen, Li , et al. “How Serendipity Improves User Satisfaction with Recommendations? A Large-Scale User Evaluation.” The World Wide Web Conference 2019.
[7] 交互式引荐在外卖场景的运用
[8] Zhang, Yin , et al. “A Model of Two Tales: Dual Transfer Learning Framework for Improved Long-tail Item Recommendation.” (2020).
[9] Zhu, Yongchun , et al. “Learning to Warm Up Cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks.” ACM (2021).
[10] Li, Feng , et al. “Graph Intention Network for Click-through Rate Prediction in Sponsored Search.” (2021).
[11] Hamilton, William L , R. Ying , and J. Leskovec . “Inductive Representation Learning on Large Graphs.” (2017).
[12] Pi Q, Zhou G, Zhang Y, et al. Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction. CIKM 2020.
[13] Shamir, Gil I. , D. Lin , and L. Coviello . “Smooth activations and reproducibility in deep networks.” (2020).
[14] Snapp, Robert R. , and G. I. Shamir . “Synthesizing Irreproducibility in Deep Networks.”, 10.48550/arXiv.2102.10696. 2021.
[15] Rohan Anil, Sandra Gadanho, Da Huang. “On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models.”(2022)
[16] Yan, J., Xu, Z., Tiwana, B., and Chatterjee, S. (2020). Ads allocation in feed via constrained optimization. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 3386–3394.
[17] Xinran He, Junfeng Pan, Ou Jin, Tianbing Xu, Bo Liu, Tao Xu, Yanxin Shi, Antoine Atallah, Ralf Herbrich, Stuart Bowers, and Joaquin Quinonero Candela. Practical lessons from predicting clicks on ads at facebook. In ADKDD, pages 5:1–5:9, 2014.
[18] Salimans, Tim , et al. “Evolution Strategies as a Scalable Alternative to Reinforcement Learning.” (2017).
[19] Baird, L. C . “Advantage Updating.” Advantage Updating (1993).
[20] Xie R, Zhang S, Wang R, et al. “Hierarchical reinforcement learning for integrated recommendation.”(2021).
[21] Liao, Guogang , et al. “Cross DQN: Cross Deep Q Network for Ads Allocation in Feed.” (2021).
[22] Zhao, Xiangyu , et al. “DEAR: Deep Reinforcement Learning for Online Advertising Impression in Recommender Systems.” (2019).

阅览更多

| 在美团大众号菜单栏对话框回复【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等要害词，可检查美团技能团队历年技能文章合集。

| 本文系美团技能团队出品，著作权归属美团。欢迎出于分享和交流等非商业意图转载或运用本文内容，敬请注明“内容转载自美团技能团队”。本文未经许可，不得进行商业性转载或许运用。任何商用行为，请发送邮件至tech@meituan.com申请授权。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。