本文共享自华为云社区《卷积神经网络紧缩办法总结》,作者:嵌入式视觉 。

咱们知道,在必定程度上,网络越深,参数越多,模型越杂乱,其终究作用越好。神经网络的紧缩算法是,旨在将一个巨大而杂乱的预练习模型(pre-trained model)转化为一个精简的小模型。

按照紧缩进程对网络结构的损坏程度,咱们将模型紧缩技能分为“前端紧缩”和“后端紧缩”两部分。

  • 前端紧缩,是指在不改动原网络结构的紧缩技能,首要包含常识蒸馏、轻量级网络(紧凑的模型结构规划)以及滤波器(filter)层面的剪枝(结构化剪枝)等;
  • 后端紧缩,是指包含低秩近似、未加限制的剪枝(非结构化剪枝/稀少)、参数量化以及二值网络等,方针在于尽可能削减模型巨细,会对原始网络结构形成极大程度的改造。

总结:前端紧缩简直不改动原有网络结构(仅仅只是在原模型基础上削减了网络的层数或许滤波器个数),后端紧缩对网络结构有不可逆的大幅度改动,形成原有深度学习库、甚至硬件设备不兼容改动之后的网络。其保护本钱很高。

一,低秩近似

简略了解便是,卷积神经网络的权重矩阵往往稠密且巨大,然后核算开支大,有一种办法是选用低秩近似的技能将该稠密矩阵由若干个小规模矩阵近似重构出来,这种办法归类为低秩近似算法。

一般地,行阶梯型矩阵的秩等于其“台阶数”-非零行的行数。

低秩近似算法能减小核算开支的原理如下:

总结了6种卷积神经网络压缩方法

根据以上想法,Sindhwani 等人提出运用结构化矩阵来进行低秩分化的算法,详细原理可自行参阅论文。另一种比较简便的办法是运用矩阵分化来下降权重矩阵的参数,如 Denton 等人提出运用奇异值分化(Singular Value Decomposition,简称 SVD)分化来重构全衔接层的权重。

1.1,总结

低秩近似算法在中小型网络模型上,取得了很不错的作用,但其超参数量与网络层数呈线性变化趋势,随着网络层数的添加与模型杂乱度的提升,其搜索空间会急剧增大,现在首要是学术界在研讨,工业界运用不多。

二,剪枝与稀少束缚

给定一个预练习好的网络模型,常用的剪枝算法一般都遵从如下操作:

  1. 衡量神经元的重要程度
  2. 移除去一部分不重要的神经元,这步比前 1 步愈加简便,灵活性更高
  3. 对网络进行微调,剪枝操作不可避免地影响网络的精度,为避免对分类功能形成过大的损坏,需求对剪枝后的模型进行微调。关于大规模行图像数据集(如ImageNet)而言,微调会占用很多的核算资源,因而对网络微调到什么程度,是需求斟酌的
  4. 返回第一步,循环进行下一轮剪枝

根据以上循环剪枝结构,不同学者提出了不同的办法,Han等人提出首要将低于某个阈值的权重衔接悉数剪除,之后对剪枝后的网络进行微调以完结参数更新的办法,这种办法的不足之处在于,剪枝后的网络对错结构化的,即被剪除的网络衔接在分布上,没有任何连续性,这种稀少的结构,导致CPU高速缓冲与内存频繁切换,然后限制了实践的加快作用。

根据此办法,有学者测验将剪枝的粒度提升到整个滤波器级别,即丢弃整个滤波器,可是怎么衡量滤波器的重要程度是一个问题,其中一种战略是根据滤波器权重本身的统计量,如分别核算每个滤波器的 L1 或 L2 值,将相应数值巨细作为衡量重要程度标准。

运用稀少束缚来对网络进行剪枝也是一个研讨方向,其思路是在网络的优化方针中参加权重的稀少正则项,使得练习时网络的部分权重趋向于 0 ,而这些 0 值便是剪枝的方针

2.1,总结

整体而言,剪枝是一项有用减小模型杂乱度的通用紧缩技能,其关键之处在于怎么衡量个别权重关于整体模型的重要程度。剪枝操刁难网络结构的损坏程度极小,将剪枝与其他后端紧缩技能相结合,可以到达网络模型最大程度紧缩,现在工业界有运用剪枝办法进行模型紧缩的案例。

三,参数量化

比较于剪枝操作,参数量化则是一种常用的后端紧缩技能。所谓“量化”,是指从权重中概括出若干“代表”,由这些“代表”来表明某一类权重的详细数值。“代表”被存储在码本(codebook)之中,而原权重矩阵只需记录各自“代表”的索引即可,然后极大地下降了存储开支。这种思维可类比于经典的词包模型(bag-of-words model)。常用量化算法如下:

  1. 标量量化(scalar quantization)。
  2. 标量量化会在必定程度上下降网络的精度,为避免这个坏处,很多算法考虑结构化的向量办法,其中一种是乘积向量(Product Quantization, PQ),概况咨询查阅论文。
  3. 以PQ办法为基础,Wu等人规划了一种通用的网络量化算法:QCNN(quantized CNN),首要思维在于Wu等人以为最小化每一层网络输出的重构差错,比最小化量化差错更有用。

总结了6种卷积神经网络压缩方法

总结了6种卷积神经网络压缩方法

这三类根据聚类的参数量化算法,其本质思维在于将多个权重映射到同一个数值,然后完成权重共享,下降存储开支的目的。

3.1,总结

参数量化是一种常用的后端紧缩技能,可以以很小的功能丢失完成模型体积的大幅下降,不足之处在于,量化的网络是“固定”的,很难对其做任何改动,一同这种办法通用性差,需求配套专门的深度学习库来运转网络。

这儿,权重参数从浮点转定点、二值化等办法都是是企图避免浮点核算耗时而引入的办法,这些办法能加快运算速率,一同削减内存和存储空间的占用,并确保模型的精度丢失在可接受的范围内,因而这些办法的运用是有其实践价值的。更多参数量化常识,请参阅此 github库房。

四,二值化网络

  1. 二值化网络可以视为量化办法的一种极端状况:所有的权重参数取值只能为\pm 11 ,也便是运用 1bit来存储WeightFeature。在一般神经网络中,一个参数是由单精度浮点数来表明的,参数的二值化能将存储开支下降为原来的 1/32

  2. 二值化神经网络以其高的模型紧缩率和在前传中核算速度上的优势,近几年格外受到重视和发展,成为神经网络模型研讨中的十分抢手的一个研讨方向。可是,第一篇真正意义上将神经网络中的权重值和激活函数值一同做到二值化的是 Courbariaux 等人 2016 年宣布的名为《Binarynet: Training deep neural networks with weights and activations constrained to +1 or -1》的一篇论文。这篇论文第一次给出了关于怎么对网络进行二值化和怎么练习二值化神经网络的办法

  3. CNN 网络一个典型的模块是由卷积(Conv)->批标准化(BNorm)->激活(Activ)->池化(Pool)这样的次序操作组成的。关于异或神经网络,规划出的模块是由批标准化(BNorm)->二值化激活(BinActiv)->二值化卷积(BinConv)->池化(Pool)的次序操作完结。这样做的原因是批标准化以后,确保了输入均值为 0,然后进行二值化激活,确保了数据为 -1 或许 +1,然后进行二值化卷积,这样能最大程度上削减特征信息的丢失。二值化残差网络结构定义实例代码如下:

    def residual_unit(data, num_filter, stride, dim_match, num_bits=1): “””残差块 Residual Block 定义 “”” bnAct1 = bnn.BatchNorm(data=data, num_bits=num_bits) conv1 = bnn.Convolution(data=bnAct1, num_filter=num_filter, kernel=(3, 3), stride=stride, pad=(1, 1)) convBn1 = bnn.BatchNorm(data=conv1, num_bits=num_bits) conv2 = bnn.Convolution(data=convBn1, num_filter=num_filter, kernel=(3, 3), stride=(1, 1), pad=(1, 1)) if dim_match: shortcut = data else: shortcut = bnn.Convolution(data=bnAct1, num_filter=num_filter, kernel=(3, 3), stride=stride, pad=(1, 1)) return conv2 + shortcut

4.1,二值网络的梯度下降

现在的神经网络简直都是根据梯度下降算法来练习的,可是二值网络的权重只有\pm 11,无法直接核算梯度信息,也无法进行权重更新。为处理这个问题,Courbariaux 等人提出二值衔接(binary connect)算法,该算法采纳单精度与二值结合的方法来练习二值神经网络,这是第一次给出了关于怎么对网络进行二值化和怎么练习二值化神经网络的办法。进程如下:

  1. 权重 weight 初始化为浮点
  2. 前向传达 Forward Pass:
    • 运用决定化方法(sign(x)函数)把 Weight 量化为 +1/-1, 以0为阈值
    • 运用量化后的 Weight (只有+1/-1)来核算前向传达,由二值权重与输入进行卷积运算(实践上只涉及加法),取得卷积层输出。
  3. 反向传达 Backward Pass:
    • 把梯度更新到浮点的 Weight 上(根据放松后的符号函数,核算相应梯度值,并根据该梯度的值对单精度的权重进行参数更新)
    • 练习结束: 把 Weight 永久性转化为 +1/-1, 以便 inference 运用

4.1,两个问题

网络二值化需求处理两个问题:怎么对权重进行二值化和怎么核算二值权重的梯度。

1,怎么对权重进行二值化?

权重二值化一般有两种选择:

总结了6种卷积神经网络压缩方法

2,怎么核算二值权重的梯度?

总结了6种卷积神经网络压缩方法

4.3,二值衔接算法改善

之前的二值衔接算法只对权重进行了二值化,可是网络的中间输出值依然是单精度的,于是 Rastegari 等人对此进行了改善,提出用单精度对角阵与二值矩阵之积来近似表明原矩阵的算法,以提升二值网络的分类功能,弥补二值网络在精度上弱势。该算法将原卷积运算分化为如下进程:

总结了6种卷积神经网络压缩方法

总结了6种卷积神经网络压缩方法

总结了6种卷积神经网络压缩方法

可以看到的是权重二值化神经网络(BWN)和全精度神经网络的精确度简直相同,可是与异或神经网络(XNOR-Net)比较而言,Top-1 和 Top-5 都有 10+% 的丢失。

比较于权重二值化神经网络,异或神经网络将网络的输入也转化为二进制值,所以,异或神经网络中的乘法加法 (Multiplication and ACcumulation) 运算用按位异或 (bitwise xnor) 和数 1 的个数 (popcount) 来替代。

更多内容,可以看这两篇文章:

  • github.com/Ewenwan/MVi…
  • 二值神经网络(Binary Neural Network,BNN)

4.4,二值网络规划注意事项

  • 不要运用 kernel = (1, 1) 的 Convolution (包含 resnet 的 bottleneck):二值网络中的 weight 都为 1bit, 假如再是 1×1 巨细, 会极大地下降表达能力
  • 增大 Channel 数目 + 增大 activation bit 数 要协同配合:假如一味增大 channel 数, 终究 feature map 因为 bit 数过低, 还是浪费了模型容量。 同理反过来也是。
  • 建议运用 4bit 及以下的 activation bit, 过高带来的精度收益变小, 而会明显进步 inference 核算量

五,常识蒸馏

本文只简略介绍这个范畴的开篇之作-Distilling the Knowledge in a Neural Network,这是蒸 “logits”办法,后面还出现了蒸 “features” 的论文。想要更深入了解,中文博客可参阅这篇文章-常识蒸馏是什么?一份入门随笔。

常识蒸馏(knowledge distillation),是搬迁学习(transfer learning)的一种,简略来说便是练习一个大模型(teacher)和一个小模型(student),将巨大而杂乱的大模型学习到的常识,经过必定技能手段搬迁到精简的小模型上,然后使小模型可以取得与大模型附近的功能。

在常识蒸馏的试验中,咱们先练习好一个 teacher 网络,然后将 teacher 的网络的输出成果q作为 student 网络的方针,练习 student 网络,使得 student 网络的成果p挨近q,因而,student 网络的丢失函数为L = CE(y,p)+\alpha CE(q,p)。这儿 CE 是穿插熵(Cross Entropy),y是真实标签的 onehot 编码,q 是 teacher 网络的输出成果,p 是 student 网络的输出成果。

可是,直接运用 teacher 网络的 softmax 的输出成果q,可能不大合适。因而,一个网络练习好之后,关于正确的答案会有一个很高的置信度。例如,在 MNIST 数据中,关于某个 2 的输入,关于 2 的猜测概率会很高,而关于 2 相似的数字,例如 3 和 7 的猜测概率为10^-6和10^-9。这样的话,teacher 网络学到数据的相似信息(例如数字 2 和 3,7 很相似)很难传达给 student 网络,因为它们的概率值挨近0。因而,论文提出了 softmax-T(软标签核算公式),公式如下所示:

总结了6种卷积神经网络压缩方法

总结了6种卷积神经网络压缩方法

所以,可以知道 student 模型终究的丢失函数由两部分组成:

  • 第一项是由小模型的猜测成果与大模型的“软标签”所构成的穿插熵(cross entroy);
  • 第二项为猜测成果与一般类别标签的穿插熵。

这两个丢失函数的重要程度可经过必定的权重进行调节,在实践运用中,T 的取值会影响终究的成果,一般而言,较大的 T 可以取得较高的准确度,T(蒸馏温度参数) 属于常识蒸馏模型练习超参数的一种。T 是一个可调节的超参数、T 值越大、概率分布越软(论文中的描绘),曲线便越平滑,相当于在搬迁学习的进程中添加了扰动,然后使得学生网络在学习学习的时分更有用、泛化能力更强,这其实便是一种抑制过拟合的战略。常识蒸馏的整个进程如下图:

总结了6种卷积神经网络压缩方法

student 模型的实践模型结构和小模型相同,可是丢失函数包含了两部分,分类网络的常识蒸馏 mxnet 代码示例如下:

# -*-coding-*-  : utf-8  
"""
本程序没有给出详细的模型结构代码,首要给出了常识蒸馏 softmax 丢失核算部分。
"""
import mxnet as mx
def get_symbol(data, class_labels, resnet_layer_num,Temperature,mimic_weight,num_classes=2):
    backbone = StudentBackbone(data)  # Backbone 为分类网络 backbone 类
    flatten = mx.symbol.Flatten(data=conv1, name="flatten")
    fc_class_score_s = mx.symbol.FullyConnected(data=flatten, num_hidden=num_classes, name='fc_class_score')
    softmax1 = mx.symbol.SoftmaxOutput(data=fc_class_score_s, label=class_labels, name='softmax_hard')
    import symbol_resnet  # Teacher model
    fc_class_score_t = symbol_resnet.get_symbol(net_depth=resnet_layer_num, num_class=num_classes, data=data)
    s_input_for_softmax=fc_class_score_s/Temperature
    t_input_for_softmax=fc_class_score_t/Temperature
    t_soft_labels=mx.symbol.softmax(t_input_for_softmax, name='teacher_soft_labels')
    softmax2 = mx.symbol.SoftmaxOutput(data=s_input_for_softmax, label=t_soft_labels, name='softmax_soft',grad_scale=mimic_weight)
    group=mx.symbol.Group([softmax1,softmax2])
    group.save('group2-symbol.json')
    return group

tensorflow代码示例如下:

# 将类别标签进行one-hot编码
one_hot = tf.one_hot(y, n_classes,1.0,0.0) # n_classes为类别总数, n为类别标签
# one_hot = tf.cast(one_hot_int, tf.float32)
teacher_tau = tf.scalar_mul(1.0/args.tau, teacher) # teacher为teacher模型直接输出张量, tau为温度系数T
student_tau = tf.scalar_mul(1.0/args.tau, student) # 将模型直接输出logits张量student处于温度系数T
objective1 = tf.nn.sigmoid_cross_entropy_with_logits(student_tau, one_hot)
objective2 = tf.scalar_mul(0.5, tf.square(student_tau-teacher_tau))
"""
student模型终究的丢失函数由两部分组成:
第一项是由小模型的猜测成果与大模型的“软标签”所构成的穿插熵(cross entroy);
第二项为猜测成果与一般类别标签的穿插熵。
"""
tf_loss = (args.lamda*tf.reduce_sum(objective1) + (1-args.lamda)*tf.reduce_sum(objective2))/batch_size

tf.scalar_mul 函数为对 tf 张量进行固定倍率 scalar 缩放函数。一般 T 的取值在 1 – 20 之间,这儿我参阅了开源代码,取值为 3。我发现在开源代码中 student 模型的练习,有些是和 teacher 模型一同练习的,有些是 teacher 模型练习好后直接指导 student 模型练习。

六,浅层/轻量网络

浅层网络:经过规划一个更浅(层数较少)结构更紧凑的网络来完成对杂乱模型作用的迫临, 可是浅层网络的表达能力很难与深层网络相匹敌。因而,这种规划办法的局限性在于只能运用处理在较为简略问题上。如分类问题中类别数较少的 task

轻量网络:运用如 MobilenetV2、ShuffleNetv2 等轻量网络结构作为模型的 backbone可以大幅削减模型参数数量。

参阅资料

  1. 神经网络模型紧缩和加快之常识蒸馏
  2. github.com/chengshengc…
  3. github.com/dkozlov/awe…
  4. XNOR-Net
  5. 解析卷积神经网络-深度学习实践手册
  6. 常识蒸馏(Knowledge Distillation)简述(一)

点击关注,第一时间了解华为云新鲜技能~