本文作者： 应如是，观远算法团队工程师，毕业于伦敦帝国理工学院计算机系，首要研讨方向为强化学习、时刻序列算法及其落地运用。深耕零售消费品场景，处理供应链运筹优化问题。为客户供给依据机器学习的AI处理计划。

1. 布景

伴随大数据、人工智能、云计算等前沿技能的飞速发展，零售消费行业从制作、采购、销售到服务环节出现数字化、智能化的特色。

本文以供应链全景计划中的智能补货场景为例。为你揭秘观远 AI 处理计划怎么赋能企业智能补货。

智能补货能防止漏订错订产品，有用操控库存周转率、下降缺货率、减轻人工担负、进步订货功率。

现有智能补货计划首要分为端到端架构和多进程架构。

端到端架构如深度神经网络模型、端到端运筹优化模型等。多进程架构一般包括销量猜测模型和补货模型两部分。端到端深度神经网络模型关于数据量的依靠已然是当前 AI 运用落地的最大妨碍之一。多进程架构因为多个模型之间差错的叠加扩大，导致终究成果并不理想。

机器学习的商业落地需求考虑众多因素，如模型稳定性、模型杂乱度、决议计划可解说性等。现行技能计划关于输入数据依靠度较高，模型稳定性低、泛化才能弱。增加了商业落地难度，事务场景拓宽才能有限。

本文将剖析智能补货场景的技能难点，并论述观远 AI 计划怎么依据仿照学习与逆强化学习，选用少样本模型结构优化现有技能计划。

观远 AI 计划秉承 “让事务用起来” 的主旨，相信智能补货旨在减轻人工担负、增强人工决议计划才能而非代替人工，特别在后疫情年代，人工决议计划对突发信息的及时处理不可代替，当今商业国际需求人机协同共筑高质量决议计划。

2. 技能难点

本文从模型稳定性、模型杂乱度、决议计划可解说性剖析智能补货场景的技能计划难点。

2.1. 模型稳定性（Model Stability）

模型稳定性能够从模型输入、输出两个视点剖析：

从输入视点剖析，模型稳定性由模型对数据依靠程度决议。
从输出视点剖析，体现为模型泛化才能的强弱。

2.1.1. 数据依靠（Data Reliability）

数据依靠又能够细分为数据质量依靠和数据体量依靠：

数据质量依靠（Data Quality Reliability）
- 指数据准确性、完整性、时效性、关联性、一致性、可靠性、合理表示、能够拜访等。
数据体量依靠（Data Volume Reliability）
- 指支撑模型练习到达收敛所需求的数据量大小。

深度神经网络模型需求海量练习数据，即数据体量要求大。一起该模型对数据质量要求也高。诚如机器学习名言 “Garbage in Garbage out”所说，模型当遇到“漂移问题”时，习惯才能弱，体现作用必定不好。

漂移问题一般能够分为以下两类：

数据漂移（Data Drift）
- 指当输入数据散布发生改变。因而，前史练习的模型难以在这些新数据上取得杰出体现。
概念漂移（Concept Drift）
- 指当模型学习的模式不再树立，发生改变；
- 与数据漂移相反，输入数据的散布坚持不变。相反，模型输入和输出之间的联系会发生改变。

当出现数据漂移或概念漂移的时分，模型的输入数据散布发生改变或模型学习的模式不再树立。一个典型案例便是 Covid-19 疫情。

2020 年，Covid-19 疫情席卷全球，简直一夜之间，人们的出行办法、餐饮习惯、供应链备货等发生翻天覆地的改变。这种改变既包括数据散布的改变（Data Drift），例如网购导致线上订单暴增，线下订单骤减；也包括概念漂移（Concept Drift），例如疫情期间，国际旅游等事务遭到重击，但随着情况好转，可能旧概念又会康复（Reoccurring Concepts）。

上述改变会影响所有模型，不论这类模型曾经是否以稳定性高著称，当发生突然漂移（Sudden Drift） 时，模型未来的作用无法取得任何确保。

在智能补货场景中，一方面数据质量堪忧，面临库存、作废、到货信息不准确，产品信息保护延迟等问题。另一方面饱受“漂移问题”困扰，在后疫情年代，数据散布、内涵模式发生剧烈改变，因为现有技能架构对数据质量和数据体量的高度依靠，模型的调整周期长，作用改善有限，难以满意当今变幻莫测的商业需求。

2.1.2. 模型泛化才能（Model Generalization）

上文从模型数据来源剖析了模型稳定性，下面从模型泛化才能剖析模型稳定性。

机器学习模型的泛化场景分为两大类：

弱泛化
- 练习数据与测验数据来自于同一个散布；也叫内插（interpolation）或鲁棒性（robustness）。
强泛化
- 练习数据与测验数据来自不同的散布；也叫外推（extrapolation）或了解（understanding）。

“弱泛化” 一般假定练习集数据和测验集数据散布相同。但在实践问题中，即使是“大样本”（large sample limit）情况下，二者散布也总会有差异。在智能补货场景中，门店事务更新，周边客流改变，区域受疫情暂时影响，都会导致练习模型的数据和测验模型的数据不满意独立同散布条件。在该种情况下，不论是依据很多前史数据练习的端到端神经网络模型，还是多进程运筹架构，都面临数据漂移问题，削弱模型泛化才能。

在“强泛化”领域，模型在完全不同数据散布上进行评价。强化学习旨在处理这种改变场景中的模型泛化性。当智能学习系统对国际的了解越多，它就更简略取得学习的信号，做决议计划所需的样本就越少。这也是为什么说少样本学习（few shot learning）、仿照学习（imitation learning）、学习怎么学习（learning to learn）重要的原因了：它们将使咱们脱节选用方差大而有用信息少的暴力求解办法。

现有技能计划选用独立同散布假定，导致其“弱泛化”作用欠安。一起，现有技能计划遇到不同数据散布时，“强泛化”才能也亟待进步。

2.1.3. 模型阑珊（Model Decay）

机器学习中有个概念叫模型阑珊（Model Decay） ，意为前史的模型作用并不能确保未来的模型作用，一般把这种情况叫做Model drift, decay, 或 staleness。所以需求定时保护模型，经过从头练习模型甚至重构模型来保持模型作用。

因为上文所述模型对数据的依靠，以及漂移问题的存在，任何模型都不可防止地阑珊，现有技能计划对数据依靠高，一旦发生漂移问题，模型更易阑珊，需求的保护本钱较高，甚至需求从头规划模型，迭代本钱高。下图总结归纳了模型泛化才能、模型阑珊危险与数据依靠程度之间的联系。

如图所示，模型关于数据的依靠程度越高，模型的泛化才能越弱（绿线），阑珊的危险越高（红线），这也是现有技能计划的首要缺乏。

2.2. 模型杂乱度（Model Complexity）

模型杂乱度首要从模型的练习难度和迭代本钱考虑，因为商业场景中事务需求往往改变多端，会引发上文所述的模型阑珊问题，定时从头练习和迭代晋级必不可少。如此，模型的练习难度和迭代本钱就需求被贴现到当下成为模型杂乱度的考量因素。

2.2.1. 模型练习难度（Model Trainability）

深度神经网络需求海量数据输入，而且需求高性能 GPU 等硬件设备支撑，一起练习花费时刻较长。海量数据的需求限制了智能补货规模只能是开店较久的成熟门店，无法支撑数据少的新开门店。

多进程模型架构中，多模型的优化方针不同，中心环节的优化方针和终究方针并不完全一致，比方猜测准确度的进步，不一定带来周转的优化（牛鞭效应）。这也导致模型练习难度上升，常常出现 1+1<2 的为难处境。

2.2.2. 模型迭代本钱（Model Iteration Cost）

深度神经网络练习耗时长，一般指定方针丢失函数后，经过最小化丢失函数练习模型。当事务逻辑变更时，需求从头提炼事务知识，修改方针函数，构建新特征，调整网络结构等。

也存在一些模型依据运营总本钱树立数学模型，且以运营总本钱作为丢失函数，求解建议补货量。当需求改变，例如事务方针从最优化运营总本钱到开辟抢占市场份额，愿意打价格战招引客流时，方针并非运营总本钱最低。

综上，从模型杂乱度视点考虑，这些技能计划练习耗时长，中心方针与终究方针断层，方针函数单一，当遇到事务需求变更时，调整本钱高，难度大，迭代慢，无法习惯商业国际快速变更的事务需求。

2.3. 补货决议计划可解说性（Decision Interpretability）

智能补货决议计划终究触达的是事务、领域专家，需求决议计划具有强解说性。从补货决议计划可解说性视点出发，黑盒猜测与盲目假定是技能计划需求统筹处理的。

2.3.1. 黑盒猜测（Black-Box Predict）

深度神经网络模型把原始数据丢进模型，直接输出补货值，好处是方便，坏处是越来越像一个黑箱。这种端到端的黑箱模型，除了输入输出，工程师和事务运用者对中心进程一无所知。

关于事务、领域专家来说，AI 智能决议计划需求处理最根本的信赖问题。当模型猜测采取某一行动时，专家需求有理由相信模型是正确的。专家需求知道模型的决议计划逻辑，了解模型的缺点，并确保危险得到操控，假如专家不信赖模型，决议计划成果就不敢被广泛的运用。有用的模型是被运用起来的模型，假如模型生产系统永久无法被运用，再出色的黑盒猜测精度也没有任何价值。

2.3.2. 盲目假定（False Assumption）

机器学习中伴有许多假定，奇妙的假定能够精简模型，但盲目假定会使模型犯丧命过错。

最常见的盲目假定便是练习数据与测验数据的独立同散布，这种隐式假定难以发现，因为练习模型时并不要求数据满意独立同散布，工程师只需拿到数据，练习，就能取得模型，而独立同散布假定的不满意将在底层逻辑上影响模型的猜测作用。

另一种事务层面的盲目假定，例如学界最常提到的经济订货量（Economic Order Quantity，EOQ），在实践中却很少用到，首要不管是库存本钱还是作业本钱都很难衡量，根本无法获取。此外，实践运营中更多看数量，比方库存量能否满意需求，滞销 1 件需求销售多少件才能回本，至于库存租赁本钱、固定作业本钱这些是不怎么看的。相似的，以单一方针（例如运营总本钱）树立数学模型，且以运营总本钱作为丢失函数，求解直接输出建议补货量，该技能计划也会遇到运营总本钱难以预估的现实问题。

还有一种盲目假定，例如一些多进程模型，将补货模型分为猜测和补货两部分，该计划假定更准确的销量猜测能够带来更合理的补货决议计划，但猜测差错会随着多模型叠加而累积扩大，而且中心环节的优化方针和终究的方针并不是完全一致的，比方猜测准确度的进步，不一定带来周转的优化等。

3. 观远 AI 技能

观远 AI 团队深耕供应链场景，以事务用起来为指导思想，选用少样本数据结构，依据仿照学习与逆强化学习技能。从以下视点优化了现有的供应链技能计划。

模型稳定性（Model Stability）
- 降级数据质量依靠
- 进步模型泛化才能
- 下降模型阑珊保护本钱
模型杂乱度（Model Complexity）
- 下降模型练习难度
- 下降模型迭代本钱
补货决议计划可解说性（Decision Interpretability）
- 防止了黑盒猜测
- 防止了盲目假定

3.1. 理论根底

3.1.1. 什么是强化学习（RL）

强化学习（Reinforcement learning，简称 RL）是机器学习中的一个领域，着重怎么依据环境而行动，以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种根本的机器学习办法。与监督学习不同的是，强化学习不需求带标签的输入输出对，一起也无需对非最优解的精确地纠正。其关注点在于寻觅探究（对未知领域的）和运用（对已有知识的）的平衡，强化学习中的“探究-运用”的交流，在多臂老虎机问题（Multi-armed Bandit）和有限 MDP 中研讨得最多。

根本的强化学习被建模为马尔可夫决议计划进程（Markov decision processes，MDP），包括以下要素：

状况空间
动作空间
奖赏函数
战略 Policy
状况之间转化的规则（转移概率矩阵）

在强化学习中，上述要素中前四点与智能体（Agent）相关，即状况空间、动作空间、奖赏函数和战略。第五点“状况之间转化的规则 ”是环境特点。

关于强化学习的深化讨论，能够参考这篇文章《深化了解强化学习》。

3.1.2. RL 与仿照学习（Imitation Learning）

仿照学习（Imitation Learning）——从专家示例中学习（Learn from Expert Demonstration）——是一种让智能体像人类专家一样能够进行智能决议计划的办法。在通往通用人工智能的路上，人们发现很难手工地进行编程来教会智能体进行考虑，因为这么做涉及到很多的人工工程。比方，在教会车辆自动驾驭的进程中，需求有很多的约束进行考虑（安全驾驭而不发生事端、平稳驾驭而增加舒适感）等等，而针对这些约束规划特定的监督信息信号来引导智能体是一个比较困难的使命。相反之下，人类却能比较简略地完结这些使命，而且为智能体供给很多的示例行为。运用这些专家示例来教会智能体进行智能决议计划便是仿照学习首要处理的问题。

不断涌现的新的使命促使研讨者们规划了各种各样的仿照学习算法。其间，普遍认为仿照学习有两大类算法：

行为克隆（Behavioral Cloning）
**对立式仿照学习（Adversarial Imitation Learning）
**

行为克隆算法测验最小化智能体战略和专家战略的动作差异，把仿照学习使命归约到常见的回归或许分类使命。而对立式仿照学习算法则是经过逆强化学习（Inverse Reinforcement Learning, IRL） 来构建一个对立的奖赏函数，然后最大化这个奖赏函数去仿照专家行为。

观远 AI 技能计划交融了行为克隆和对立式仿照学习两种办法，以专家前史补货决议计划作为示例，经过仿照学习练习使智能体（Agent）的补货决议计划才能能够到达专家水平。在此根底上，当 Agent 面临杂乱事务场景，奖赏函数不清晰时，经过逆强化学习构建对立的奖赏函数，也能做出一流的补货决议计划。

3.2. 架构规划

观远 AI 智能补货技能架构自底向顶包括三部分：MDP 规划，仿照学习建模以及智能决议计划。

MDP 规划是根底设施，在此之上对事务场景笼统构建仿照学习模型，其间包括两个子模型：行为克隆以及对立式仿照学习。行为克隆算法用于应对奖赏函数已知的简略事务场景，属于根底战略（exploitation） ，对立式仿照学习算法用于应对奖赏函数未知的杂乱事务场景，属于探究战略（exploration） 。

观远 AI 智能供应链补货架构细节

3.2.1. 马尔可夫决议计划进程（MDP）规划

MDP 规划首要包括状况空间，动作空间，奖赏函数以及战略。

状况空间规划
- 状况空间描绘 Agent 感知到的环境信息及其动态改变，是模型对环境的笼统。
- 在智能补货场景中，状况空间包括产品库存量、产品在途量、门店类型等信息。
动作空间规划
- 动作空间描绘 Agent 可执行的操作，如游戏中的上下左右、进犯、躲闪等。
- 在智能补货场景中，动作空间包括是否补货、补多少货等。

一起，在动作空间规划上结合事务知识，创新地引进若干新概念，更细粒度地描写补货动作。例如：

触发库存（Trigger Stock）：当产品实在库存低于触发库存时，引发店员补货动作
希望库存（Expect Stock）：店员补货时，希望该产品补到的量
补货频率（Replenishment Frequency）：产品两次补货行为之间的时刻距离

引进上述动作空间信息后，产品的补货决议计划依据下述条件：

当产品的实在库存低于触发库存时，智能体触发补货决议计划，补货量为希望库存与实在库存的差值，一起模型还会考虑补货频率，确保补货行为的合理性。

奖赏函数规划（Reward Function Design）

在强化学习使命中，智能体依据探究进程中来自环境的反应信号继续改进战略，这些反应信号被称为奖赏（Reward)，奖赏是即时的，而累计的奖赏被称作报答（Return）。作为使命方针的详细化和数值化，奖赏信号起到了人与算法沟通的桥梁作用。算法工程师将客户希望和使命方针“翻译”成奖赏函数，引导强化学习算法的练习。

在补货场景中，奖赏函数能够从日商、净利的视点规划，例如门店的净利越高，对应的奖赏越高。奖赏函数也能够从作废率视点规划，例如门店的作废率越低，对应的奖赏越高。

战略规划

战略规划依据状况空间、动作空间以及奖赏函数的规划。在智能补货场景中，补货战略能够做到多种多样，例如：

日常运营时，补货战略是最大化门店日商、净利方针；
占领市场时，补货战略可所以最大化门店产品陈设量，并答应作废率调高。

依据不同奖赏函数的规划，能够灵活调整模型战略，甚至能够综合考虑净利、作废率，将多种奖赏函数结合得到复合奖赏函数。

战略规划经过调整奖赏函数引导补货决议计划习惯事务需求，这也更契合当今商业国际改变多端的事务场景。

3.2.2. 仿照学习建模

行为克隆（Behavior Cloning）

行为克隆算法适用于奖赏函数已知或许专家示例已经足够优异，模型仅最小化智能体战略和专家战略的动作差异即可，一般把仿照学习使命归约到常见的回归或许分类使命。

本节以最佳备货量猜测和最佳备货日猜测为行为克隆的两个比如。

最佳备货量猜测

首要清晰备货量猜测与销量猜测不同，一些多进程架构的技能计划在销量猜测后往往需求考虑箱规转化、货架陈设、库房压货等等事务问题。

而备货量，一般来说是远大于销量，而且考虑了箱规转化、货架陈设、库房压货等等事务逻辑，本发明经过仿照专家的备货行为，直接猜测备货量代替了传统办法猜测销量后转化为备货量，大大减少精度丢失。

最佳备货日猜测

门店产品订货需求考虑物流延期问题，即前置时刻（Leadtime）。不同产品、不同物流办法的前置时刻明显不同。本发明首要对产品进行聚类，把产品物流特点相似的聚为一类，然后经过学习店长的提早备货习惯，学习某一聚类产品的备货日提早量。

综上，行为克隆针对简略事务场景，能笼统成简略的回归或许分类问题，运用线性回归、树模型均能取得杰出作用。此外，值得注意的是，行为克隆能够明显下降模型对数据的依靠，实践标明，行为克隆能够在产品库存数据质量较低的情况下，仅依据专家补货战略，取得较好的初始化补货战略，而现有技能计划面临低数据质量做出的决议计划合理性较低。

对立式仿照学习（Adversarial Imitation Learning）

对立式仿照学习算法适用于杂乱事务场景，虽然有示例数据，但模型不能经过简略的仿照示例数据到达最优作用，一起奖赏函数未知或较难规划，此刻能够经过逆强化学习（IRL） 来拟合一个奖赏函数，然后最大化该奖赏函数引导 Agent 生成补货战略。

相似的场景包括但不限于新品补货、新老产品汰换，因为无法确认杂乱事务的奖赏函数，能够依据专家前史上对新品的补货战略、对新老产品的汰换战略，练习奖赏函数，再依据该奖赏函数生成最佳补货战略。

例如奖赏函数练习得到新品补货事务的作废率为 15%；新老品汰换场景中的汰换份额为 20%等。这种情况下，即便遇到一个全新产品，模型从未见到过该产品，但模型经过逆强化学习取得了新品补货和新老品汰换事务的奖赏函数，模型也能对从未见过的新产品进行合理补货。这也是模型强泛化才能（extrapolation）的一种体现。

3.2.3. 智能决议计划

在完结 MDP 规划，仿照学习建模后，进入决议计划流程。决议计划分为根底决议计划（exploitation），经过克隆店长行为，到达大部分专家平均水平，应对简略事务场景。探究决议计划（exploration）依据逆强化学习，经过学习奖赏函数，应对杂乱事务场景。根底决议计划重视弱泛化才能，探究决议计划针对强泛化才能。

一起，本发明架构能够不断搜集实在国际的新数据，优化模型，以下流程被称为 DAgger（Dataset Aggregation）算法，把行为克隆得到的战略与环境不断的交互，来发生新的数据；然后在增广的数据集上，从头运用行为克隆进行练习，再与环境交互；这个进程会不断重复进行。因为数据增广和环境交互，DAgger 算法会大大减小未拜访状况的个数，以此进步模型的“强弱”双泛化才能。

3.3. 总结

本文总结了观远 AI 智能补货计划带来的有益作用，并在商业落地和事务迭代上才能的进步，拥有更好的商业落地才能以及事务拓宽才能。

模型稳定性

依据仿照学习架构，对输入数据的质量和体量依靠少。因而支撑新店补货。
模型应对 Sudden Data Drift 调整速度更快，能快速习惯事务改变，相较深度神经网络模型耗时更短，应对模型阑珊问题才能更强。
结合行为克隆和逆强化学习进步模型“强弱”双泛化才能，实践标明模型面临简略事务场景和杂乱事务场景均有不俗体现。

模型杂乱度

可在无清晰丢失函数前提下，只进行仿照学习，克隆专家补货行为。练习难度低。
摒弃深度神经网络的多层架构，开创式的运用强化学习——仿照学习，练习所需数据少，模型练习难度低。
运用显现 MDP 规划（状况空间、动作空间、奖赏函数），能够在杂乱多变的商业国际，以低本钱快速迭代。

补货决议计划可解说性

传统深度神经网络中以前史销量为输入，经过多层躲藏层输出猜测销量，模型整体可解说性低。
本计划具有更细粒度的显现 MDP 规划（状况空间、动作空间、奖赏函数），能更好地解说补货逻辑，增强补货决议计划可解说性。
经过对动作空间的监控来检测数据漂移或许概念漂移。如希望库存、触发库存、补货频率这类描绘补货决议计划逻辑的参数，当模型回来一个“奇怪”的补货决议计划时，领域专家能够经过剖析对应产品的动作空间来剖析决议计划逻辑，判别其合理性。
防止了黑盒猜测，也防止了对数据散布、事务逻辑、模型架构等盲目假定导致计划存在逻辑缝隙。

4. 观远 AI 与展望

观远 AI 计划以”让事务用起来“为主旨，结合详细事务场景，优化事务价值。此外，除了前面提到的 AI 技能计划，观远在产品技能、企业服务、事务推行方面都有非常丰富的经历。可登录观远数据官网检查相关资料。在一些行业头部客户，咱们的产品也成功到达了 20000 名以上活跃剖析师和数据决议计划用户的里程碑，能够想象这样的企业在剧烈的市场竞争中能够体现出来的决议计划功率与质量的巨大优势。非常欢迎有兴趣的朋友来一道探讨交流，寻求协作共建的时机。

5. Reference

What Can Go Wrong With Your Data?
Why You Should Care About Data and Concept Drift
机器学习中的表达才能，练习难度和泛化才能
Who Should Care, and What We Are Missing
自动补货模型的一些考虑-经济订货批量
《深化了解强化学习》

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

强化学习在智能补货场景的应用