我正在参加「启航计划」

大众号「古时的风筝」,专心于后端技能,尤其是 Java 及周边生态。

大家好,我是风筝

这篇文章的意图是让你能得到完美的正则表达式,并且还不必自己拼。

提到正则表达式,一直是令我头疼的问题,这家伙一般时分用不到,等用到的时分发现它的规则是一点儿也记不住,\d表示一个数字,\s表示包含下划线在内的恣意单词字符,也便是 [A-Za-z0-9_],还有[\s\S]*能够匹配包含换行在内的恣意字符串。

终于可以彻底告别手写正则表达式了

这你都能记住吗,假如能的话,那真的敬服,横竖我是记不住,之前每次手写的时分都得跟查字典似的一个个的查,简略的还好,杂乱的就很痛苦了。

终于可以彻底告别手写正则表达式了

进程往往是这个样子的:

1、 先打开 Google,查找一篇正则表达式,找到一份像上图那样的字典教程,先看个几分钟,回想回想,还有或许回想不起来。

2、然后就开端依据需求写一个正则表达式。

3、放到程序中执行一下。

4、诶,怎样不好用,匹配不上啊,接着修改正则。

5、继续从 3 – 4 的循环,直到运气来了,正常出成果了。

这是最早的时分,真的是全靠那点仅有的实力和运气了。

记住刚毕业不久的时分,有一次领导给组织一个任务,要在一堆 PDF 文件里把咱们需要的数据摘出来。PDF 这玩意儿吧,你把它的内容读出来,它便是一大段文本,要在这一堆内容不一致的文件中精确的拿到数据,榜首反应便是用正则。

其时的做法便是上面的 1-5这几步来的,加上其时分刚毕业比较菜,跌跌撞撞才把程序写好,中心有几次调试的时分,程序一跑起来,VS(Visual Studio)就特别卡。对的,便是世界榜首强大的 IDE ,其时我还在写 C#,纵然是世界榜首强大,也被我弄的特别卡。

其时只道是正则写的有问题,然后就一直改。

后来才知道,那是因为正则写的不合理,发生了回溯现象,越不合理,回溯越严峻,加上其时的 PDF 内容许多,所以导致开发工具都卡了,这要是整到线上,那怕是混不下去了。

关于回溯的问题,能够参阅下面这篇文章《失控的正则表达式:灾难性的回溯》

www.regular-expressions.info/catastrophi…

终于可以彻底告别手写正则表达式了

后来就不至于那么菜了,知道了一些关于正则表达式的在线网站,上面有一些常用的正则表达式,不必自己捣鼓了,能偷懒当然要偷懒了。能够在 Goolge 上查找关键词「正则表达式 在线」,然后就会出来一大堆,直接在上面用那些常用的正则,例如手机号、邮箱、网址啊,基本上能处理90%的需求场景。

另外的10%呢,曾经或许只能自己琢磨了,现在都2023年了,基本上99%的概率都不必亲自动手了,当然了,假如是大佬呢,就想自己写,那彻底没问题。

ChatGPT 完美处理

ChatGPT 是LLM(大言语模型)的产品,最最擅长的工作便是剖析言语,而正则表达式的运用场景是什么呢,其实便是在一大堆文本言语中按照咱们的规则,找到咱们需要的内容,总的来说,也是关于文本言语的处理,所以用 ChatGPT 处理正则表达式的问题几乎太合适不过了。

比方最简略的,匹配中国的手机号,直接让 ChatGPT 把正则写出来,并且连代码都给你写好了。

终于可以彻底告别手写正则表达式了

至于网址、邮箱等等也不在话下了。

不只ChatGPT 能够,连百度文心一言也能够。百度文心一言尽管这样能够,可是假如你反过来问它,它就蒙圈了。

比方我问 aaa@126.com 是不是一个合法的邮箱,ChatGPT 会告知你这个邮箱是合法的,可是百度文心一言就不可了。

下面这个是 ChatGPT 的回答:

终于可以彻底告别手写正则表达式了

下面这个是百度文心一言的回答:

终于可以彻底告别手写正则表达式了

不只邮箱不可,你问它一个手机号是否合法,百度文心一言也不可,还会告知你这个号码的归属地,可是这个归属地也是过错的。

这样就看出来什么是智能,什么是大数据了,显着 ChatGPT 更智能一点,期望国产的大模型能在这两年追上吧。

再举一个比如

匹配一段 HTML 中的某个部分也是正则的常用场景,做过爬虫的或多或少都用过正则吧。

比方我在一大段 HTML 中有这么一部分

<div class="time">这是一个,this is some</div>

现在要拿到这个 div 中的内容部分,当然有许多其他的方法了,比方 Java 版的 jsoup,运用 xpath、css selector 等都能够,可是假如就要用正则呢,是不是自己写的话,一般菜鸟就感觉很麻烦了。

这时分咱们问问 ChatGTP ,看看它怎样搞的。

直接就这么问了:

<div> <div class="outer"> <div class="time">这是一个,this is some</div> <div class="button">button</div> </div> </div>, 用 Java 正则表达式匹配这段 HTML 中 class=”time” 的这个标签的 Text 部分

终于可以彻底告别手写正则表达式了

直接拿过代码跑一下,没有任何问题。

有同学说了,这么显着的标签,还用的着 ChatGPT ,直接拿过来就写了。

这儿仅仅举个比如,假如哪位有比较杂乱的匹配逻辑,也能够用ChatGPT 来试试,基本上99%都能直接处理。

还有一个网站很厉害

假如你没有办法或许不想用 ChatGPT ,也不想用百度文心一言这些,我还发现一个网站,这个网站我严峻怀疑它现已接入了 ChatGPT ,它也支撑通过自然言语描绘,就能给出相应的正则表达式。

网站地址:wangwl.net/static/proj…

比方我跟他说:提取一段字符串中的中国手机号码部分,并且还有正则可视化。

终于可以彻底告别手写正则表达式了

上面的那个匹配 HTML 的比如,我也在这个网站上试过,成果也是能够的。

朴实的好东西分享,我跟这个网站没有任何关系。

一个帮你剖析正则的网站

接下来这个网站呢,假如你想对正则有比较深化的理解,或许想看看自己写好的正则或ChatGPT 帮你生成的正则表达式作用怎样样,性能好不好,都能够在这个网站进行。

网站地址:regex101.com/

终于可以彻底告别手写正则表达式了

网站左侧能够挑选你的目标言语,也便是你的代码实现是哪种言语 Java 还是 JavaScript 等。

中心上方是正则表达式,中心下方是待匹配的内容。

右侧上方是你写的正则对待匹配内容完好的匹配剖析进程,非常详细,能够通过这儿清楚的看出这个正则匹配的时分经过了哪些路径。

右侧下方是终究的匹配成果。

假如你写的正则在工作的时分发生了显着的回溯,这儿也会给出提示,告知你问题,让你去优化。

总结

正人善假于物也,尽管我很菜,可是工具好用啊,我+好用的工具,等于我也很厉害了。

也期望有收获的同学捧个场,转个发、点个在看,谢谢您嘞!咱们下期再见。 大众号「古时的风筝」,专心于后端技能,尤其是 Java 及周边生态。文章会收录在JavaNewBee中,更有 Java 后端知识图谱,从小白到大牛要走的路都在里面。