改变几行代码，PyTorch炼丹速度狂飙、模型优化时间大减

前言关于 PyTorch 炼丹，本文作者表明：假如你有 8 个 GPU，整个操练进程只需求 2 分钟，完成 11.5 倍的功能加快。

本文转载自机器之心

仅用于学术分享，若侵权请联络删去

欢迎重视大众号CV技能攻略，专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署结构最全教程收拾

核算机视觉入门1v3辅导班

怎么提升 PyTorch「炼丹」速度？

最近，知名机器学习与 AI 研讨者 Sebastian Raschka 向我们展现了他的绝技。据他表明，他的办法在不影响模型准确率的情况下，只是经过改动几行代码，将 BERT 优化时刻从 22.63 分钟缩减到 3.15 分钟，操练速度足足提升了 7 倍。

作者更是表明，假如你有 8 个 GPU 可用，整个操练进程只需求 2 分钟，完成 11.5 倍的功能加快。

下面我们来看看他到底是怎么完成的。

让 PyTorch 模型操练更快

首要是模型，作者选用 DistilBERT 模型进行研讨，它是 BERT 的精简版，与 BERT 比较规划缩小了 40%，但功能简直没有丢失。其次是数据集，操练数据集为大型电影谈论数据集 IMDB Large Movie Review，该数据集总共包括 50000 条电影谈论。作者将运用下图中的 c 办法来预测数据会集的影评情绪。

基本使命告知清楚后，下面便是 PyTorch 的操练进程。为了让我们更好地了解这项使命，作者还贴心肠介绍了一下热身操练，即怎么在 IMDB 电影谈论数据集上操练 DistilBERT 模型。假如你想自己运转代码，能够运用相关的 Python 库设置一个虚拟环境，如下所示：

相关软件的版本如下：

现在省略掉单调的数据加载介绍，只需求了解本文将数据集划分为 35000 个操练示例、5000 个验证示例和 10000 个测验示例。需求的代码如下：

代码部分截图

完好代码地址：github.com/rasbt/faste…

然后在 A100 GPU 上运转代码，得到如下成果：

部分成果截图

正如上述代码所示，模型从第 2 轮到第 3 轮开始有一点过拟合，验证准确率从 92.89% 下降到了 92.09%。在模型运转了 22.63 分钟后进行微调，最终的测验准确率为 91.43%。

运用 Trainer 类

接下来是改善上述代码，改善部分首要是把 PyTorch 模型包装在 LightningModule 中，这样就能够运用来自 Lightning 的 Trainer 类。部分代码截图如下：

完好代码地址：github.com/rasbt/faste…

上述代码建立了一个 LightningModule，它定义了怎么履行操练、验证和测验。比较于前面给出的代码，首要改变是在第 5 部分（即 ### 5 Finetuning），即微调模型。与曾经不同的是，微调部分在 LightningModel 类中包装了 PyTorch 模型，并运用 Trainer 类来拟合模型。

之前的代码显示验证准确率从第 2 轮到第 3 轮有所下降，但改善后的代码运用了 ModelCheckpoint 以加载最佳模型。在同一台机器上，这个模型在 23.09 分钟内到达了 92% 的测验准确率。

需求留意，假如禁用 checkpointing 并允许 PyTorch 以非确定性形式运转，本次运转最终将获得与普通 PyTorch 相同的运转时刻（时刻为 22.63 分而不是 23.09 分）。

主动混合精度操练

进一步，假如 GPU 支持混合精度操练，能够敞开 GPU 以进步核算功率。作者运用主动混合精度操练，在 32 位和 16 位浮点之间切换而不会牺牲准确率。

在这一优化下，运用 Trainer 类，即能经过一行代码完成主动混合精度操练：

上述操作能够将操练时刻从 23.09 分钟缩短到 8.75 分钟，这简直快了 3 倍。测验集的准确率为 92.2%，甚至比之前的 92.0% 还略有进步。

运用 Torch.Compile 静态图

最近 PyTorch 2.0 公告显示，PyTorch 团队引入了新的 toch.compile 函数。该函数能够经过生成优化的静态图来加快 PyTorch 代码履行，而不是运用动态图运转 PyTorch 代码。

因为 PyTorch 2.0 尚未正式发布，因而有必要先要装置 torchtriton，并更新到 PyTorch 最新版本才能运用此功能。

然后经过增加这一行对代码进行修改：

在 4 块 GPU 上进行分布式数据并行

上文介绍了在单 GPU 上加快代码的混合精度操练，接下来介绍多 GPU 操练战略。下图总结了几种不同的多 GPU 操练技能。

想要完成分布式数据并行，能够经过 DistributedDataParallel 来完成，只需修改一行代码就能运用 Trainer。

经过这一步优化，在 4 个 A100 GPU 上，这段代码运转了 3.52 分钟就到达了 93.1% 的测验准确率。

DeepSpeed

最终，作者探索了在 Trainer 中运用深度学习优化库 DeepSpeed 以及多 GPU 战略的成果。首要有必要装置 DeepSpeed 库：

接着只需更改一行代码即可启用该库：

这一波下来，用时 3.15 分钟就到达了 92.6% 的测验准确率。不过 PyTorch 也有 DeepSpeed 的代替计划：fully-sharded DataParallel，经过 strategy=”fsdp” 调用，最终花费 3.62 分钟完成。

以上便是作者进步 PyTorch 模型操练速度的办法，感兴趣的小伙伴能够跟着原博客尝试一下，相信你会得到想要的成果。

原文链接：sebastianraschka.com/blog/2023/p…

欢迎重视大众号CV技能攻略，专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

核算机视觉入门1v3辅导班

【技能文档】《从零搭建pytorch模型教程》122页PDF下载

QQ沟通群：470899183。群内有大佬负责回答我们的日常学习、科研、代码问题。

其它文章

AI最全资料汇总 | 基础入门、技能前沿、工业应用、部署结构、实战教程学习

改动几行代码，PyTorch炼丹速度狂飙、模型优化时刻大减

AAAI 2023 | 轻量级语义切割新范式： Head-Free 的线性 Transformer 结构

TSCD：弱监督语义切割新办法，中科院主动化所和北邮等联合提出

怎么用单个GPU在不到24小时的时刻内从零开始操练ViT模型？

CVPR 2023 | 根据Token对比的弱监督语义切割新计划！

比MobileOne还秀，Apple将重参数与ViT相结合提出FastViT

CVPR 2023 | One-to-Few：没有NMS检测也能够很强很快

ICLR 2023 | Specformer: Spectral GNNs Meet Transformers

从头审视Dropout

RestoreDet：低分辨率图像中方针检测

AAAI 2023 | 打破NAS瓶颈，AIO-P跨使命网络功能预测新结构

CLIP：语言-图像表明之间的桥梁

方针检测Trick | SEA办法轻松抹平One-Stage与Two-Stage方针检测之间的差距

少样本学习总述：技能、算法和模型

CVPR 2023 | 标示500类，检测7000类！清华大学等提出通用方针检测算法UniDetector

CVPR 2023｜根据多层多标准重建使命的MIM改善算法

CVPR 2023 | 超越MAE！谷歌提出MAGE：图像分类和生成到达SOTA！

称霸Kaggle的十大深度学习技巧

CVPR 2023 | 用于半监督方针检测的常识蒸馏办法

方针盯梢方向开源数据集资源汇总

CVPR2023 | 书生模型霸榜COCO方针检测，研讨团队解读揭露

Vision Transformer的重参化也来啦 | RepAdpater让ViT起飞

高效压缩99%参数量！轻量型图像增强计划CLUT-Net开源

一文了解 CVPR 2023 的Workshop 都要做什么

CVPR’23 最新 70 篇论文分方向收拾｜包括方针检测、图像处理、人脸、医学影像、半监督学习等方向

方针检测无痛涨点新办法 | DRKD蒸馏让ResNet18具有ResNet50的精度

PyTorch 2.0正式版来了！

CVPR2023最新Backbone | FasterNet远超ShuffleNet、MobileNet、MobileViT等模型

CVPR2023 | 集成预操练金字塔结构的Transformer模型

AAAI 2023 | 一种通用的粗-细视觉Transformer加快计划

大核分化与留意力机制的奇妙结合，图像超分多标准留意网络MAN已开源！

核算机视觉各个方向沟通群与常识星球

CV小常识讨论与剖析(7) 寻觅论文立异点的新方式

CV小常识剖析与讨论(6）论文立异的一点误区

核算机视觉入门1v3辅导班

核算机视觉沟通群

聊聊核算机视觉入门

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

改变几行代码，PyTorch炼丹速度狂飙、模型优化时间大减

近期文章

近期评论