本文正在参与「金石计划 . 分割6万现金大奖」

前语

生活中咱们现已离不开互联网，而互联网也离不开一门技能，这种技能在早期的互联网中发挥着决定性的作用，它连接着人与人，人与网。它，便是咱们的查找引擎。

当时耳熟能详的查找引擎，例如：Google，百度这些：

那他们是如何做到把零星的信息组织起来的呢？

构建索引

查找引擎不会一股脑地将文章的所有内容存储下来，而是进行较为详尽的观察，挑选重点部分，比方重点重视标题、时刻、正文等内容，给予这些信息不同的权重，再进行存储：

查找引擎通常不会在查找的时分，暂时从全网爬取网页，而是提前经过爬虫将搜集到的信息构建成索引，存储在便于快速检索的数据库中。只要在自己的数据库中查找，才会使得咱们的及时查找更有效率。

如果你的网页内容有更新，你能够选择自己主动告诉查找引擎：“我更新了内容”，或许等候它守时用蜘蛛来爬取你的更新信息。这些蜘蛛每天都在各类网站上匍匐着，搜集所有能够爬的网络信息，然后将这些信息都放入自己的数据池中，等候咱们经过查找来获取。

目前咱们都只是提到了查找引擎关于文字信息的理解。那当咱们查找图片或许视频的时分，它又是怎样处理的呢？

数值匹配查找

在深度学习还没有进入黄金时代的时分，大多的图片和视频查找都是以文字形式记录的。也便是说在数据库中构建索引的时分，查找引擎对图片和视频并不敏感，它为图片和视频构建的索引都是基于它们周围的文字信息，比方视频的标题等。

可是现在的深度学习给咱们提供了另一条思路，也便是用模型从非文字的信息中提取计算机能够辨认的可计算信息。在用户用文字查找时，将查找的文字内容转换成深度学习能辨认的数字内容，然后再和之前存储的图片、视频数字信息进行匹配，比照两种数字之间的关联性，然后找到最附近的内容。这种查找，有一个专业名词叫作 “多模态” 查找。

多模态查找并不仅限于文字搜图片视频，它还能颠倒过来，用图片搜图片，图片搜视频等，由于在深度学习看来，只要它们能被转换成统一的数字形状，我就能比照相似性。

接下来咱们从技能层面剖析一下，你用文字搜文字时，究竟会发生什么呢。

查找过滤

尽管现在的深度学习技能能够辨认文字，进行文字相似性的打分，排序。可是深度学习模型有一个速度的硬伤，相比传统办法，每一次猜测需求消耗更多的时刻。而用户是无法忍受查找中的延迟。为了实现在海量网页和文件中的快速查找遍历，咱们不得不使用到更加传统的办法, 而把深度学习办法放到后续更加适宜的步骤中。

目前比较常用的办法，类似于上图的层层挑选过滤的办法，将挑选结果用不同的办法，从海量的网页中，一层层过滤到最契合查找条件的结果。而在需求做大量文档过滤处理的阶段，咱们就使用时刻消耗相对较少的技能，最后把深度学习放在文档量和计算量都少的当地。

接下来咱们就介绍一下，什么样的技能能在数据量庞大的当地，能够又快又准地找到查找内容。

正排 / 倒排索引

咱们总说自然语言处理（NLP）会让计算机懂得文字的内在，可是有时分，有更加投机取巧的办法能够让计算机在不理解文字内在的时分，还能给咱们快速带来准确的结果。特别是在查找中不得不提到的倒排索引技能。倒排索引是一种批量召回技能，它能快速在海量数据中初步召回基本契合要求的文章。

假定你开了家咨询公司，手上有100篇资料。这时有人来找你咨询 NLP 的问题，你会怎样在这100篇资料中找到适宜的内容呢？

办法一：一篇一篇地阅览，找到所有包括 NLP 内容的资料，然后回来给提问者。这种办法需求每次查找的时分，都对所有的资料进行一次阅览，然后在资料中找到关键词，并挑选出资料，效率十分差。

办法二：在刚拿到所有资料时，就把它们通读一遍，然后构建关键词和文章的对应关系。当用户在查找特定词的时分，比方，就会直接回来这个 关键词索引 下的文章列表。先构造索引的优点便是，能够将这种索引放在后续的查找中复用，查找也就变成了一种词语匹配加回来索引资料的过程了。

这里的办法一便是所谓的正排索引，而办法二是更加快速的倒排索引。

但当处理的是海量数据的时分，经过倒排索引找到的文章可能依然是海量。如果能有种办法对这些文章进行排序操作，再选取排名靠前的文章列表，这将会帮咱们节约大量的时刻。

处理匹配排序，最有名的算法之一叫做 TF-IDF。这里就不再赘述了，有爱好的小伙伴能够阅览博主的这篇文章：【NLP】入门（三）：TF-IDF（理论篇）

后记

以上便是【NLP】入门（二）：查找引擎是怎样作业的的全部内容了。

本文简单地从构建索引、数值匹配查找、查找过滤、正排 / 倒排索引几个方面来叙述查找引擎的作业原理，期望对大家有所协助！

上篇精讲：【NLP】入门（一）：简介

我是，期待你的重视；

创造不易，请多多支持；

系列专栏：AI NLP

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

【NLP】入门（二）：搜索引擎是怎么工作的

前语

构建索引

数值匹配查找

查找过滤

正排 / 倒排索引

后记

近期文章

近期评论