回顾2022,展望2023,我正在参与2022年终总结征文大赛活动

系列小作文之企业级机器学习pipline总结


(1)为啥要小结?

作为在作业在coding一线的算法程序猿,也算在三四家国内头部互联网大厂的中心广告与引荐部分作业过。一向想写一个关于现在一些干流互联网公司常用算法技术的系列文章,记载下自己作业和学习的过程。

由于笔力有限,加上一些知识点自己也需要加深学习了解,成果从2021年7月份开端定下不管三七二十一,要一向写写写下去的小目标,成果中途没几天就中断了,我仍是太懒了~ ,直到2023年元旦,拖拖拉拉的也没写完,终于,最近又下定决心弥补了几篇文章~

哎,写小作文真是累啊,还要写的言之有物,痛苦。看完觉得有收成,仍是辛苦点点手指头关注转发一下吧,你的支撑也是我继续写写写下去的必不可少的动力啊!!!也期望我的这些实践与学习经历,也的确能够缩短文章阅览者的实践难度,真实的起到知识共享与共同进步的效果…

短时间不计划再写机器学习流程pipline相关的内容了,这儿简短做一个小结~

我们知道一个机器学习pipline 一般触及 log 日志数据处理、样本处理、特征处理、召回模型、排序模型、目标衡量等。上面这一块的内容在以下文章均有触及,而且理论和完成源码都有,感兴趣的能够点进去看看 …

系列小作文之企业级机器学习pipline总结


(2) 历史文章一览

上面说到的一些内容,作者曾经发表的文章里均有部分触及,能够去这儿检查:

企业级机器学习 Pipline – log 数据处理 https://blog.csdn.net/qq_25459495/article/details/119845792

企业级机器学习 Pipline – 样本sample处理 https://blog.csdn.net/qq_25459495/article/details/119857180

企业级机器学习 Pipline – 特征feature处理 – part 1 https://blog.csdn.net/qq_25459495/article/details/119984603

企业级机器学习 Pipline – 召回模型 https://blog.csdn.net/qq_25459495/article/details/128461465

企业级机器学习 Pipline – 排序模型 https://zhuanlan.zhihu.com/p/595960242

算法工程师常用python脚本,这原理你真的了解透了吗? https://zhuanlan.zhihu.com/p/405145251

算法工程师打死都要记住的20条常用shell指令 https://zhuanlan.zhihu.com/p/404589964

其中,上面的前五篇小作文首要介绍了pipline相关的内容,而后边两章则把算法全栈工程师们日常会用到的 衡量目标核算的python 脚本 以及日常在虚拟机上进行操作的shell指令。

现在这个系列文章首发了微信大众号:算法全栈之路,并逐渐同步于 知乎、csdn、、思否等互联网渠道。所以,在其他渠道看到同马甲的账号,不用怀疑,都是我。作为一个对技术痴迷的宅男,欢迎你留言和我一起交流吧~


(3)系列文章历史概览

因为在后台看到许多同学阅览都有跳跃以及留言说内容太多,期望有个概览说下每篇文章讲了什么,减少文章的阅览了解难度,这儿就将本系列的文章简略做下总结,期望能够起到阅览指南的效果。

(3.1)企业级机器学习 Pipline – log 数据处理 这篇文章首要讲了用spark 处理用户原始日志的办法,首要触及用 hive SQL 和 spark session 部分源码以及spark任务通过shell脚本提交到集群等内容。

(3.2) 企业级机器学习 Pipline – 样本sample处理 这篇文章首要引入了机器学习pipline的架构,介绍了怎么结构练习模型的正负样本,包含和事务结合比较紧密的实践,例如去除无效曝光、去除用户误触行为、召回模型样本的重要性,也介绍了海量样本随机负采样的过程,以及负采样导致的打分偏低问题的CTR校准办法。

(3.3) 企业级机器学习 Pipline – 特征feature处理 – part 1
这篇文章首要讲了样本和特征数据怎么结合结构练习数据,以及众多可用特征的分类和规划技巧等,首要包含特征覆盖率spark核算脚本说明 以及dense 、sparse 特征怎么塞入模型等办法,而特征根据事务场景又能够分为上下文侧特征、 广告侧特征、用户侧特征,每个部分的特征有哪些常用类别,以及广告体系中常运用的特征交叉技巧等。

(3.4) 企业级机器学习 Pipline – 召回模型 这篇文章首要介绍了召回模型首要的练习目标是什么、怎么选择结构召回机器学习模型的样本以及在样本上怎么进行迭代的和事务进行紧密结合的精细化规划方向,在文章最终,要点剖析了业界比较火的双塔召回离线练习与线上部署运用的时候的作业流程,并共享了作者采用featureColumn 特征处理API来处理特征 以及tf.keras 中阶API来构建模型结构的源代码,代码注释写的十分具体而且通俗易懂,对于新手和职场老鸟运用tensorflow进行模型规划有极高的参考价值。

(3.5) 企业级机器学习 Pipline – 排序模型 这篇文章首要介绍了业界干流排序模型的排序策略公式以及简略介绍了learn to rank (LTR)。文章中具体介绍粗排与精排的运用场景,而且介绍Google 的 FTRL以及WideDeep 模型在 广告和引荐中的不同的运用说明,也简略介绍了常用的离线与在线评价目标,最终作者仍然共享了自己完成的根据featureColumn和tensorflow keras的排序模型代码,注释和代码质量都不错哦~

(3.6)算法工程师常用python脚本,这原理你真的了解透了吗? 这篇文章和前面的文章不同,这篇文章首要深化剖析了AUC目标的画法与ROC求法的深化了解,更是介绍了GAUC和AUC的不同,供给了核算AUC和GAUC的python代码完成,最终共享了结合 linux 管道符与python脚本进行样本负采样的办法。

(3.6) 算法工程师打死都要记住的20条常用shell指令 这篇文章算是该系列的最终一篇文章了,首要介绍了算法程序猿在虚拟机上常用的一些高频脚本,有时候在作业上,暂时继续完成某个功用,成果搜脚本查找半响也是挺郁闷的,能够点击去看看哈,有用得上的话,能够点赞收藏哦。

到这儿,企业级机器学习 Pipline 系列文章的介绍就算完全完结了,感兴趣的或者对某方面有疑问的能够留言或则关注微信大众号:算法全栈之路 和我评论哦。哎,知识和阅历有限,如有缪误,欢迎提出宝贵意见一起评论下~


(4)接下来写什么呢

书接上文,本系列算是企业级机器学习的通用流程吧,作者最近又写了两篇文章:

快看 esmm 模型理论与实践

深化浅出了解word2vec模型 (理论与源码剖析)

马上计划在弥补一篇 mmoe 的文章,也不计划再写了。

word2vec 是因为我始终觉得,word的模型是embeding规划思维的开山制作,规划思维里许多通用性,了解透彻了对后面学习其他DNN与机器学习均有很大协助。

而写esmm和mmoe 则是这两者也分别是多目标学习 (Multi-Task Learning,MTL) 旗号下串行递进关系与并行抵触关系的典范之作,后来者的许多作业都离不开这两者的思维根底。

最近我又看了许多关于 图深度学习算法 的书本与文章,而作业上现在也和图算法接触的比较紧密。so, 接下来开端更新 图算法 相关的内容啦!

在后面的话,现在计划更新一系列 手把手教你写模型 系列小作文,具体剖析下我学习和运用运用 tensorflow 和 pytorch完成一些干流模型的办法与技巧,专门针对小白和作业经验不那么多的同学…

在最终面,开端共享一些 风控相关 的内容,结合现有的作业事务场景,写一些实践相关的内容。

the last last last , 觉得写一写外行人快速上手运用机器学习进行数据剖析的文章也不错~

所以,管他呢,一向写写写就对了,笔杆子里有力量!!!


宅男民工码字不易,你的关注是我继续输出的最大动力。

接下来作者会继续共享学习与作业中一些有用的、有意思的内容,点点手指头支撑一下吧~

欢迎扫码关注作者的大众号: 算法全栈之路

系列小作文之企业级机器学习pipline总结