transformer总结超详细代码篇

2023-09-18 0 0 1

详情介绍
常见问题

transformer 初版链接

attention 代码链接

attention 初版链接

引言：

本文为 transformer 代码篇，主要包含具体实现过程以及过程中遇到的具体细节问题以及实现问题，仅供参考，相关原理介绍可以参考上面链接。
代码部分是本人解读别人实现的代码，对一些作者认为不用注释但是新手又看不懂的个人理解，但是由于工程量确实很大也很复杂我只是想学习一下具体实现过程应付面试所以部分模块的优化代码以及最后的训练部分依然没有完全解析，以后对原理的进一步加深后再来完善
参考代码中参数的名称一开始我是按照自己的理解改变来了名称后来才发现是论文中就这么定义名字的，所以注意我的解析代码中参数名字可能有些混乱，主要是 src 用 input 代替，tgr 用 target 代替，d_model用 embed_dim代替等，每一个模块本文主要介绍需要注意的难点，相关api 用法链接有附上，放心使用

主要参考链接：

参考代码

解析较多

参考代码 2

多头注意力实现部分

从自注意力实现 –> 多头注意力实现，主要难理解的是各种维度的来回变化以及原理步骤的实现比较抽象，但是有个人的详细解析应该可以看懂

embeding 模块

主要是 embeding 方法的封装，有测试用例可以看下我的代码(比较简单)

encoder 模块

实现 encoder 侧 encoder block 结构连接以及block 内的计算（比较简单）

decoder 模块

decoder 中和 encoder 有很大一部分相似但是难点在于其中一个有掩码的多头实现和无掩码的多头的连接，相对复杂，但是比较抽象的掩码部分有测试例子

前馈神经网络模块

根据公式实现即可，公式也比较简单

位置 embeding 模块

这个位置编码的实现相对比较复杂，所以我通过注释相对比较详细的介绍了具体实现方法，注意要理解位置编码本身原理才更好理解代码实现，同样有测试例子

工具包模块

包含 block 堆叠方法的封装, Add & Norm 模块的实现，训练和评分模块的封装，动态更新学习率的实现(未看懂但是公式见下图)，优化器的封装，标签平滑(未看懂，一种正则方法)，为看懂部分有测试用例可以辅助理解

transformer总结超详细代码篇

整体模块封装

把上面所有的模块按照 transformer 的结构图封装

测试例子(没看懂比较抽象，但是进测试可以运行)

transformer总结超详细代码篇

注： jupyter 文件是我测试使用，个人理解的注释以及api 使用的参考链接在这里面，py 文件是参考代码，因为 jupyter 稳健调用只能调py 稳健所以放在同一级目录下

transformer总结超详细代码篇

结尾

这个代码的解析真的很费时间，但是确实对自己理解算法原理有很大帮助，实现的时候还是有很多优化的，这些优化还是算法独有的确实很深奥，仅供参考
代码地址：github

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

免费下载或者VIP会员资源能否直接商用？

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考 VIP介绍。
提示下载完但解压或打开不了？

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量，若小于网盘提示的容量则是这个原因。这是浏览器下载的bug，建议用百度网盘软件或迅雷下载。若排除这种情况，可在对应资源底部留言，或联络我们。
找不到素材资源介绍文章里的示例图片？

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材，文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买，且本站不负责(也没有办法)找到出处。同样地一些字体文件也是这种情况，但部分素材会在素材包内有一份字体下载链接清单。
付款后无法显示下载地址或者无法查看内容？

如果您已经成功付款但是网站没有弹出成功提示，请联系站长提供付款信息为您处理
购买该资源后，可以退款吗？

源码素材属于虚拟商品，具有可复制性，可传播性，一旦授予，不接受任何形式的退款、换货要求。请您在购买获取之前确认好是您所需要的资源