‍♀️ 编者按：本文是支付宝体会科技沙龙第 3 期-走进蚂蚁端智能技能回顾系列文章。蚂蚁集团算法工程师面海聚集移动端视觉算法方向，介绍了面向支付宝 APP 和 IoT 设备双端的算法运用场景、技能应战、演进路线和架构计划。

点击查看回顾视频>>

本文首要包含三个部分：榜首部分会介绍移动端视觉算法在支付宝里的运用场景，以及事务表现状况。第二部分会比较大篇幅地介绍支付宝端视觉算法的一些技能结构，以及咱们的一些研制计划。第三部分会简单介绍下咱们当时正在做的一些作业，以及面向未来的一些作业。

端视觉算法 @ Alipay

首要给咱们介绍整个终端视觉算法在支付宝里边的一些详细运用场景，根本上可以把它分为四个大类。

榜首个大类是渠道运营。 比方咱们熟知的新春扫福，便是运用到了移动端的算法，还有许多支付设备里边的互动玩法。这儿用到了一些互动技能，以及针对线下许多场景供给的 AR 打卡的功用，这些都会偏运营属性的事务。

第二个大类是渠道东西。 比方扫一扫里边的识物，比方在支付宝里边的短视频拍照，也有一些直播，这样一些拍照东西，里边也会用到许多端上的视觉算法。

第三个大类是个人事务。 许多用户会在支付宝里操作的一些个人事务，比方绑卡、转账、注册会员、会员认证，包含做一些基金或许其他金融事务的开户操作等等。这儿边都会用到许多的移动端的算法才能，以提高全体用户的一些运用体会。

第四个大类是笔直场景。 比方针对产品辨认所做的线下 IoT 设备，AI inside 的这种才能，以及在疫情期间，咱们为许多线上的服务供给了智能化辨认算法，来提高全体功率。

支付宝移动端视觉算法全体的运用范围是十分的广泛，运用的事务场景类型变化也比较大。首要是由于支付宝是一个数字生活渠道，根据这个大的定位和布景，事务关于算法侧，不管在才能仍是功能层面上，都有十分高的要求。

算法才能上， 现在整个支付宝核算机视觉的算法才能现已掩盖了包含分类检测、切割、OCR 等干流的 CV 算法方向。

模型功能上， 由于自身支付宝是一个国民级的 APP，它里边有许多的事务，会有许多的比较重的负载场景。咱们这个算法也是针对这样一个大布景，完结了低资源耗费，高功能核算这样的才能。

敞开生态上， 整个支付宝有一个十分强的敞开生态。咱们在小程序体系里边有许多外部的商家，还有一些组织在里边会为终端用户供给服务。咱们的移动端视觉算法会为这些场景供给几乎零核算成本的智能服务。

从事务的视点来看， 现在支付宝 APP 线上有数百个活泼模型，这个数字在不断地在更新迭代。除此之外，咱们 IoT 也有数十万家的内外部设备会运用到移动端的视觉技能。这是关于内部事务，关于外部事务，咱们可以在 APP 上经过小程序的方法接入咱们供给的一些解决计划。一同咱们的视觉解决计划也会经过蚂蚁的 mPaaS 商业化产品，给外部的 APP 进行输出。

移动端算法在支付宝生态的优势

移动端视觉算法在支付宝里边可以有这么多的运用场景，发生这么多的事务价值，和支付宝整个生态是有比较大的关系，它的优势也比较可以发挥出来。首要榜首个，支付宝自身有广泛的事务场景，第二个，支付宝整个用户体量是比较大的。在这两个布景下，一个好的体会，好的移动端的算法，可以为各式各样的事务供给十分低成本的事务运用。

除此之外，咱们在运用支付宝的进程中有一个比较大的心智，便是支付宝是十分安全的。移动端上整个数据的获取、加工、处理，都是在用户自己的手机上进行操作，也防止了用户关于个人数据隐私的忧虑。一同咱们的外部事务也会关心到外部组织的数据合规问题，经过建设移动端算法才能，也可以躲避这些合规的危险。

端视觉算法研制应战

根本上，要可以完结移动端视觉算法在支付宝生态里边的优势。本质上来讲，咱们整个算法需求有满足的才能支撑这些事务。当然这是一个十分应战的事情，一同随着整个手机硬件的不断开展，这个应战也是在不断地变化。比方在早期，咱们最早 2018 年端引擎上线，是配合整个视觉算法的运用场景一同上线。那个时分咱们面对的问题是整个算力存储资源和网络流量的这些约束。这个对模型的巨细、速度和内存都有比较高的要求，而当时整个业界根本上的才能仍是比较单一的。

那个时分尽管出现了一些例如 mobilenet 这种分类网络结构。可是它关于 CV 场景的掩盖是比较少的。一同在运用层面上，也只要一些特定场景的算法。例如咱们的人脸检测，根据 cascade 的人脸检测算法，或许是传统的字符切割和辨认的 OCR 算法。这种算法关于支付宝的这种广泛事务场景，是比较难以往其他的场景去拓展的。这个时分咱们面对的一个最大的应战便是，我怎么样可以有一个共同的结构去研制不同类型的视觉算法。

随着硬件的开展，咱们出现了各式各样的芯片，GPU 也好， NPU 也好，这种芯片会越来越强。这个时分咱们又面对了别的一个应战，即碎片化的硬件环境问题，由于支付宝内有 3000+ 机型，现在的端智能到这个阶段，咱们看到业界各个大厂在移动端算法的研制上，开展是比较敏捷的。但其实大部分都局限于单模型的研制规划思路，或许抛弃一些机器掩盖问题。关于支付宝来说，这是不可的。由于支付宝或许一款机型就有几十万上百万的用户，或许说尽管有更好的芯片，可是为了掩盖会牺牲掉高端机的体会。所以在不同的时刻阶段，咱们面对了不同的应战。

支付宝端视觉算法开展进程

整个移动端视觉算法的开展进程，也是在应战的进程傍边不断地建设起来的。

这儿咱们给了几个比较重要的时刻节点。榜首个，2018 年 2 月份，是端算法在五福场景里边榜首次进行大规划的验证。这个时分也开启了传统 CV 算法检测分类的大规划运用。一同在 2018 年，咱们也针对支付宝里的个人事务对 OCR 需求旺盛的特点，结合移动端算法在隐私保护、实时体会和数据危险保护方面的天然优势，聚集了 OCR 这一十分有应战的 CV 技能方向进行移动端轻量化的作业。这个作业也继续到今日，并在继续进行。在这四五年的开展进程傍边，也一直继续保持着比较高的技能水位。

在 2019 年，整个短视频事务兴起，在整个视觉互动方向，咱们看到各个 APP 里边都现已培养成了一个十分强的用户心智。咱们针对支付宝整个事务的特点，聚集了视觉互动的一个根底功用，去布局建设了支付宝整个视觉互动技能。

从 2021 年开始，咱们侧重开始面对碎片化的硬件环境，和引擎团队一同合作，提出了可弹性建模的技能计划。一同在运用算法层的多个方向，现已验证了一些有效性，后边我将详细介绍这方面的作业。

端视觉算法技能架构

经过这几年的开展，咱们形成了一个从模型的研制部署到运用的系统性技能结构。根本上可以分为两个大层。首要下面的两层是归于中心的算法研制部分。其间包含了运用算法，网络结构规划这部分，以及咱们和引擎团队在研制形式东西链上面的一些共建的操作。这些作业可以更好地去应对前面说到的有限的核算资源以及碎片化影响环境的两层应战，然后提高整个端视觉算法的中心竞争力。

向上是咱们关于事务侧或许是用户侧的一个透出，包含了两个层面。榜首个是归于这种场景模型的自主研制。由于 CV 的算法场景性是比较重的。或许这个事务今日要辨认一个杯子，那个事务明天要辨认一个笔记本。所以常规性的这种需求会十分多。特别是关于支付宝来讲，自主研制功用可以大幅提高整个运用算法的研制功率，也协助完结在各个事务场景里普惠运用移动端视觉算法才能。

除此之外，有许多可复用的产品化才能，多个事务方都可以接入。这些才能咱们可以封装成一些插件或许 SDK 的方法供给给到不同的事务团队或许是技能团队来接入。

算法轻量化规划思想

面对运行环境以及资源约束，算法轻量化的规划自身关于移动端来说，需求优化的方针是十分多的，可归结为以下三个方面：

首要在网络结构规划上，中心是根底网络充沛完结轻量化和精度的平衡，第二，在网络规划好之后，怎么充沛运用轻量化网络的容量，来充沛发掘网络的容量。第三，移动端自身也有运用层面上的优势，这些优势的运用，可以进一步提高整个移动端算法最终给用户出现的效果。所以移动端算法的整个研制，不只是一个网络规划的问题，它需求经过算法建模到整个辨认流程进行全方位的规划，来到达全体效果的提高。

1. 网络结构规划：网络结构选型

在整个网络结构规划层面上，除了网络关于整个深度宽度这样的调整之外，其实整个规划思想借鉴了 2017 年谷歌提出来的 depth wise 的卷积，以及 2018 年 group convolution 的卷积。这些思想的提出也推进了整个轻量化网络规划比较大的进步。这几个根底的卷积层的操作就形成了几个比较典型或许比较有名的 block 的结构，比方说 Involved Residual Block 或许说 Shuffle Block 这种结构。咱们在不同的使命里边也许多地借鉴了这样的卷积层规划，或许称为 block 的规划思想。

此外还有一些作业，我可以引进一些相对来说比较轻量化的核算模块，增强一些特征表达。这关于一些需求提高提取高层语义的使命会十分有效。例如文字辨认。这儿简单给几个数据，便是前面说到的移动端 OCR。由于 OCR 自身是一个十分重核算量的视觉方向。咱们经过在网络结构这方面的调整，现已完结了 OCR 检测和辨认模型加在一同，根本上能到达 1M 左右巨细的规划。一同在核算速度上，检测速度根本可以在 40 毫秒，即可完结一张图的文字检测。单行文字的辨认速度可以到达 9 毫秒。

有了网络结构规划之后，第二部分的容量现已定了。那么怎么可以更好地去运用这个容量，去学习咱们需求完结的辨认使命呢？比较直观的一个做法便是蒸馏。它可以很好地发掘模型容量。移动端整个网络结构规划仍是从一个服务端的大网络转化而来的，所以经过大网络对小网络进行蒸馏的学习，可以进一步地提高整个网络容量的运用功率，有利于提高整个网络精度，削减全体练习时刻，提高练习稳定性。

2. 练习战略：容量的充沛运用

关于第 2 个部分，需求强调的一点是数据关于轻量化网络规划的重要性。这儿给了一个简单的比如，例如一个线性分类器和一个非线性分类器。更多的练习数据更有助于比较简单或许轻量化分类器的参数学习。

关于轻量化网络来说，数据会变得十分重要。一同数据自身关于一切的算法研制来说，都是一个难题。特别是关于一些新兴的事务。这时分咱们许多运用到弱监督学习这个技能方向里边的技能来提高数据的运用率，让整个小模型也可以学到很好的常识。

模型有了网络结构练习好了之后，第三个作业便是可以运用定点化。定点化核算计划可以完结网络容量的进一步紧缩。从咱们整个实测来看，现在的一个 INT8 核算代替浮点核算，整个核算速度根本上可以加快一倍。一同也可以削减一半的内存占用，这对全体尤其是低端机的受益是十分大的。

这儿我给个示例，关于练习战略的运用，这是比较特殊的一类网络的轻量化。即对立生成模型，GAN 网络的轻量化作业。自身 GAN 这个方向的模型结构差异是十分大的。不同网络的整个模型结构差异很大。一同它的轻量化难度比较大，由于它有生成模型，有对立模型。它练习中或许还有多个对立模型，所以它牵扯到多个网络的一同轻量化，它的练习其实很难确保稳定。咱们根本上选用了一个蒸馏的结构来完结这项作业，把这个效果的调优和咱们轻量化的规划进行一个解耦。咱们运用一个共同的轻量化网络结构来完结这个练习。大网络首要是为轻量化网络供给它学惯用的数据。关于全图大分辨率的核算速度，以及人脸小分辨率的核算速度，都可以到达实时或许准实时的要求。

3. 场景化规划：精度进一步提高

整个网络结构的模型练习现已完结了，在运用到移动端时，移动端自身的特点可以进一步地对网络精度进行提高。这儿咱们称移动端的流式辨认和本地化的实时核算优势的结合。由于数据采集和核算都在本地完结的，所以经过实时视频流里的多帧信息交融，可以进一步提高算法在运用层的一些效果。这儿可以一般来讲，咱们可以在前处理和后处理的部分都会添加一些这种流式辨认的交融形式。

我举两个比如，一个是场景化数据，这是在前处理层面上。例如在人脸的检测，或许是肢体关键点检测，由于它或许有多方向的许多姿态的。可是由于整个的动作是一个接连的动作，所以咱们在整个运用进程中，在猜测推理的进程中，会运用前一阵的猜测视点去对它进行一个预转正。便是在整个模型学习的进程中，我愈加重视去学习一个相对正的人脸，比方说关键点，比方一个正的人体的姿态的学习，这样一个紧凑的样本空间，自身就可以下降模型的学习的难度。这些运用自身许多是运用在互动场景，它对实时性要求十分高。所以我可以把整个模型压得更小。从整个测验来看，它的猜测差错或许猜测精度会有比较大的提高。除了这种前处理的方法，别的一个便是后处理，后处理相对来说比较直观一点。它首要是提高精度，或许是在感知方面来提高精度，关于互动方向首要来提高全体稳定性。例如前面说到的五福的模型，咱们不是以单帧的成果来作为最终的成果。它是有一个多帧投票战略在里边，它的辨认精度可以提高到 99.9% 以上。

关于互动场景来说，例如关于人脸的 2D 3D 的关键点回归，中心的成果滑润可以对一些大视点，快速或许慢速的运动效果都可以到达一个比较好的盯梢效果。下方有个演示视频，上面是带后处理模块的，下面是不带后处理模块的。假如没有这种后处理，它的颤动是十分显着的。特别是关于大视点看，眼睛部分的关键点现已开始飘了。

面向碎片化硬件的模型研制

前面我首要介绍了咱们在运用算法层面上的一些研制思路和整个研制进程。现在将介绍别的一个应战，即碎片化硬件环境的问题。之前咱们一切的研制形式根本上都是叫单模型的研制形式。便是为了确保在支付宝 APP 所掩盖的这些机型的掩盖率。由于一款机器或许有几十万上百万的用户在运用，所以咱们根本上是以最低端设备作为咱们的优化方针，这个时分便带来了一个问题，我的算力越强，我可以用更大或许功能更好的模型，这个时分为了兼顾低端机去牺牲了它的体会。

为了防止这个问题，咱们在手动研制形式的时分，会选用一种方法叫分级模型研制。我会在中高低端手机里边会挑几款干流的机型去进行模型研制。这种形式自身的研制成本和咱们选择机型的数量便是相关的。这个功率其实是很低的。针对这个问题，咱们也和引擎团队一同去探究别的一种新的研制形式：可收缩建模。结构层会供给整个模型练习的研制结构，咱们在运用算法层面上，会进行这个建模计划的规划。

这儿举一个比如，是咱们本年上半年做的一个作业。咱们首要要界说一个权重共享的动态化的超网。在每次练习进程傍边，会采样里边的不同子网进行更新。收敛之后，这些子网之间的权重是可以共享的。这个子网练习成之后，就可以对不同的子网精度和耗时有相应的分布点状图。有了这个点状图，咱们可以根据不同机型的功能要求，对里边进行采样，然后到达自动化的分级模型研制。一次练习便可以发生不同功能耗费下的多级模型。一同它自身是带有网络查找这样的概念在里边。所以相关于手动规划，它可以探究到更多样的网络结构。

根据可弹性建模的端算法研制

在整个可弹性建模里边，在运用算法规划层面上，咱们其实要考虑几个因素。榜首个，算法研制的 Loss 和评价要共同，这个是蛮重要的。由于咱们在许多使命里边运用这种结构，有或许它的练习会不稳定，有或许会搜出来的这种网络结构不够好。很大一部分是由于里边的一些不共同的问题影响的，那么这个便可以提高整个超网练习的稳定性。

第二个，整个移动端算法会有异构的问题存在。异构的状况下，模型的规划层面需求去运用这些适用于不同 backend 的结构或许算子。这是需求算法和引擎团队一同去配合，去做一些挑选的。

第三个，这自身是一个为了提高功率的计划，我不太或许拿一个十分大的模型，或许大的查找空间去进行查找，这十分的耗时，耗核算资源。所以在整个运用算法层，咱们在界说查找空间时，会在已有的轻量化网络结构周围进行查找，然后下降整个查找的复杂度。

下面这部分给咱们介绍的是一个运用案例，这有两个事务模型，handcraft 是咱们最早的手动规划的网络结构。后边这个是咱们经过可弹性建模查找出来的。然后从这儿边去采样了高中低档三档的模型结构。

从两个事务模型的视点来看，首要成果来看，咱们可以到得到一个共同性的定论。榜首，自身这样的结构可以一次性产出多个高功能的分级模型。第二，它有助于下探一个模型的功能。便是在这个结构查找空间进行界说之后，得到的这种 tiny 的模型，在同等核算量状况下，它的精度其实是遍及提高的。或许是咱们一个相同精度下，它的速度提高其实也比较显着，所以这个是咱们现在在 OCR 切割检测分类这些使命里边都会频繁运用的这样模型规划思想的一个研制形式。

支付宝端视觉算法才能

经过端视觉算法全链路的建设，以及和引擎团队在可弹性建模研制计划上面的探究，现在咱们在蚂蚁或许支付宝的移动端视觉算法里边，不管是咱们的网络结构、视觉算法的类型，仍是上层运用透出，都现已到达了十分大的掩盖。这儿大概列出了几个咱们常用的一些场景，包含了视觉感知类的使命，以及视觉互动类的使命。一同这些使命也在支付宝里边经过了一些封装，会以插件的方法给到内部或许外部的用户去运用。

端视觉研制未来展望

最后介绍一下咱们当时正在做的一些作业，以及未来一两年内或许会继续探究的三个方面。

榜首，网络结构的演进， 咱们其实和引擎团队一同在配合，在深挖，便是 transformer 这种新的架构在端上的运用，由于它的核算量仍是比较大的。咱们现在现已在一些相应的使命上运用，首要聚集在视觉感知这个方向。比方说 OCR 的检测和 OCR 的辨认，当然它现在功能层面上比传统的 CNN 结构还要差一些，还没有到达那么快的速度。但它的精度提高是十分大的，咱们在这个方向也在继续的演进。

第二，练习方法的演进， 移动端视觉算法关于数据的依赖十分重。咱们之前的计划都是期望可以例如经过弱监督或许自动学习这样的学习计划，去尽量运用不完整的标示样本，或许是带噪音的标示样本。咱们今日也在去探究预练习模型在整个轻量化模型、网络结构练习进程傍边的效果。咱们现在在切割场景、大规划产品辨认场景里现已有了一些初步的成果，期望后边可以有机会再和咱们进行分享。

第三，研制形式的演进。 首要是面向咱们整个异构的 backend。根据跟引擎团队在可弹性建模上面的研制，期望可以打通从模型结构规划到模型结构查找，在运用部署层面上可以打通整条链路。可以在支付宝 APP 里边完结真正的千机千模概念，可以真正的在视觉上为不同的机型的用户可以供给更好的用户体会和算法服务。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

支付宝视觉算法与端智能