查找引擎的商场格式现已有二十年没有什么大的改变，如今，Google和微软两大巨鳄的比武再度演出。ChatGPT风行之时，查找成为大型言语模型（LLM）运用之争的最大战场。

在LLM技能进程方面，Google的相关大模型研制实际上与OpenAI的ChatGPT差不多齐头并进。但刚刚仓促推出的Bard显得很被迫，Google官方的解说是，他们需求考虑新技能对社会的影响，不想推出一个漏洞百出的查找体系。

不过，作为商业公司，任何行为的背面都要考虑经济本钱。要知道，查找中广告商场份额的1个百分点的改变，都或许带来至少数亿美元营收上的幅度不坚定。Google要将运用效果还不是很好的LLM作为基础技能，引入到全球商场占比92%的查找引擎事务中，假如没有外部对手发起的强壮应战，很难进行斗胆革新。

另一方面，自我革新是一件严峻违反人道的事，更何况大厂还有所谓的“大企业病”，畏首畏尾在所难免。

这恰好是微软Bing的可乘之机，全球商场份额现在占比不到3%，前史包袱很小，New Bing要推出的消息让Google急不可耐。

ChatGPT的用户现已到1亿了，可想而知，假如Google查找这次不跟LLM，仍是按照自己的节奏去逐步更迭，其查找事务的老底存在被倾覆的巨大危险，要是Google跟了LLM，要接受用户体会欠安的危险，还有必要得在已有查找本钱上大出血——大约还要开支300亿美元的本钱。

当然，Google与微软两边高层比任何人都清楚这一点，仅仅前者更多是焦虑不安，后者则是兴奋不已。

综合考虑危险后，Google只能硬着头皮迎战，所以就有了Bard。Bard的意思是“流浪诗人”，依据百度的成果，这类诗人一般行事半调子而不拘小节，样样通而样样松，还别说，这个作风倒是挺符合现在LLM模型现在的才能特质。相较之下，微软New Bing现在像是个牛气哄哄的“拼命三郎”，就想干一票大的，毕竟在某种程度上，Bing现已没什么可失掉的了，而且这次很或许还要触底反弹。

那么，ChatGPT究竟会如何影响现在查找架构以及相关事务本钱？此前，OneFlow发布了《ChatGPT背面的经济账》（mp.weixin.qq.com/s/aAg1ptEkQ… 文章从经济学视角推导了练习大型言语模型的本钱。本文则从LLM查找架构和本钱剖析动身，探讨了微软Bing和OpenAI运用大型言语模型 (LLM) 对查找事务的潜在颠覆性，并剖析了LLM在查找中的演进和开展状况。

（以下内容经授权后由OneFlow编译，译文转载请联系OneFow取得授权。原文地址：
www.semianalysis.com/p/the-infer…

作者｜Dylan Patel、Afzal Ahmad

OneFlow编译

翻译｜杨婷、徐佳渝、贾川

OpenAI推出的ChatGPT风行全球，仅在一月份就敏捷积累了超1亿活泼用户，成为史上用户添加最快的运用程序。在此之前，Instagram花了30个月才跨过1亿用户门槛，TikTok用了9个月。每个人最关怀的问题是大型言语模型（LLM）对查找的破坏性有多大。微软此前宣布了一条震惊世界的消息：OpenAI的技能将整合到Bing查找引擎中。

New Bing会让谷歌坐立不安，我想让群众知道咱们正是让谷歌按捺不住的助推器。——Satya Nadella，微软CEO

谷歌近来的行为让群众觉得他们正“烦躁不安”。尽管咱们信任谷歌具有世界上最好的模型和最先进的AI专业知识，但长期以来，他们却没能将自身的领先优势变现。而来自微软和OpenAI的竞赛压力正在敏捷改动这一景象。

给查找范畴带来颠覆和立异需求投入资金，而练习LLM的本钱很高。更重要的是，不论以何种合理的规划布置模型，其推理本钱都远超练习本钱。

实际上，每周推理ChatGPT的本钱都超越了其练习本钱。现在ChatGPT每天的推理本钱为700,000美元。假如直接将当时的ChatGPT集成到谷歌的每次查找傍边，那么谷歌的查找本钱将大幅上升，到达360亿美元。谷歌服务事务部门的年净收入将从2022年的555亿美元下降至195亿美元。若将“类ChatGPT”的LLM布置到查找中，则意味着谷歌要将300亿美元的赢利转移到核算本钱上。

当然，这种状况永久不会发生，在软件/硬件方面改进之前，这只会是一种风趣的假定。

查找事务

首要来看一下查找商场的状况。据调查，谷歌每秒运转的查找查询约为32万次，而谷歌的查找事务部门在2022年的收入为1624.5亿美元，每次查询的均匀收入为1.61美分。谷歌有必要为核算和网络查找、广告、网络匍匐、模型开发、职工等付出很多开支。在谷歌的本钱结构中，一个值得注意的项目是：为了成为Apple产品的默认查找引擎，他们付出了约200亿美元。

谷歌服务事务部门的营运赢利率（operating margin）为34.15%。假如咱们为每次查询分配COGS/运营费用，那么每次查找查询的本钱为1.06美分，产生的收入为1.61美分。这意味着，根据LLM的单次查找查询费用有必要低于0.5美分，不然查找事务对谷歌来说将毫无赢利可言。

New Bing将交融一款新的下一代OpenAI大型言语模型。该模型针对查找事务进行了定制，汲取了ChatGPT和GPT-3.5的重要经验和效果，速度更快、更精确且功用更强壮。——微软

ChatGPT的本钱

由于有部分不知道变量，所以估算ChatGPT的本钱是一个棘手问题。咱们建立了一个本钱模型，模型显现ChatGPT在核算硬件方面的每日运营本钱为694,444美元。为保持ChatGPT的运转，OpenAI需求约3,617台HGX A100服务器（28,936个GPU），预估每次查询的本钱为0.36美分。

咱们的本钱模型是在每次推理的基础上从头开始构建的，但它与Sam Altman推文和他最近所做采访所做的介绍一致。

咱们假定OpenAI运用了GPT-3密布模型架构，这个架构的参数巨细为1750亿、隐藏维度为1.6万、序列长度为4000、每个呼应的均匀token数为2000、每个用户呼应15次、有1300万日活泼用户、浮点运算（FLOPS）运用率比FasterTransformer高2倍且推迟小于2000毫秒，int8量化，纯闲置时刻占用50%的硬件运用率，而且每个GPU每小时本钱为1美元。如有不同定见，欢迎指出。尽管咱们信任咱们处于正确的区间内，但很愿意使其愈加精准。

运用ChatGPT的查找本钱

假如ChatGPT被整合到谷歌现有的查找事务中，那么其影响将是毁灭性的。谷歌的营收将削减360亿美元。以下是LLM的360亿美元推理本钱。

若想将当时的ChatGPT布置到谷歌查找，则需求512,820.51台A100 HGX服务器和共计4,102,568个A100 GPU。在这些服务器和网络的总本钱中，仅资本开支就超越1000亿美元，其间大部分资金将流向英伟达。 当然，这永久不会发生（但假如咱们假定没有任何软硬件改进的话，能够将其当成一次风趣的思维试验）。运用谷歌的TPUv4和v5在订阅者部分建模也有不同的推理本钱，同时咱们还有一些H100 LLM推理性能方面的改进数据。

令人惊奇的是，微软知道将LLM融入查找会炸毁查找的盈利才能，并需求很多的资本开支。尽管咱们估算了营业赢利的改变，但仍是来看看萨提亚纳德拉（Satya Nadella）对毛利率的看法吧。

从现在开始，查找的[毛利率]将一向呈下降趋势。——Satya Nadella, 微软CEO

查找毛利率下降已成既定事实，更不用说跟着查找质量的进步，查找量或许会有所削减，咱们难以在大型言语模型的呼应中植入广告，以及稍后本陈述会评论的其他很多技能问题。

微软正在竭尽全力地炸毁查找商场的盈利才能。

在查找广告商场中，每添加一个百分点的份额，咱们的广告事务就有或许取得20亿美元的收入。——微软

必应的商场份额很小，但微软抓住的任何份额添加都将给他们带来巨大收益。

我以为咱们两边都会受益匪浅。咱们将逐步发掘出这些大模型的潜能，但假如查找事务被独占，开展停滞不前，在这种状况下如何从查找和广告中营利都会是一个问题，而且咱们还要应对或许呈现的时刻短下行压力，这种状况是我所不肯看到的。

大模型的开展潜力巨大，不可思议咱们不知道该如何运用它们来发家致富。——OpenAI CEO Sam Altman

与此同时，在这场竞赛中，谷歌正处于劣势方位。假如谷歌的查找商场方位被迫摇，那么它的赢利将遭到极大的影响。查找商场份额丢失所带来的影响或许会比上面剖析的愈加糟糕，由于谷歌的运营本钱十分高。

谷歌的应对措施

对此，谷歌并没有束手待毙。在ChatGPT发布短短几个月之后，谷歌就紧随其后向大众推出了集成LLM的查找版别。就现在咱们所看到的，微软的New Bing和新版谷歌查找各有好坏。

集成了ChatGPT的New Bing查找引擎在LLM功用方面好像愈加强壮。谷歌在查找精确性方面存在问题，甚至在Bard的演示中也呈现了这种问题。但是在呼应时刻方面，谷歌的Bard能够直接碾压Bing GPT。这些模型呼应时刻和查找质量方面的差异与模型巨细直接相关。

Bard将世界知识的广度与大型言语模型的力量、智慧和创造力相结合，并运用网络供给及时、优质的答复。谷歌Bard由LaMDA轻量级模型版别供给支撑，这种小型模型需求的算力更少，能够辐射到更多用户，取得更多反应。——谷歌

谷歌正经过布置轻量级模型来抢夺更大的赢利空间。他们本能够布置全尺寸巨细的LaMDA模型或功用更强、更大的PaLM模型，但是他们没有这样做，反而挑选了LaMDA轻量级模型。

关于谷歌来说，这是一种必然挑选。

谷歌无法将这些庞大的模型布置到查找傍边，由于这会大大降低毛利率。稍后咱们会详细评论LaMDA的轻量级版别，但重要的是，咱们要意识到Bard的时延优势是其竞赛力之一。

谷歌的查找收入来自广告，不同的用户在查找时会给谷歌带来不同的收益。比较印度男性农人，美国市郊女人均匀每个方针广告所带来的收益要高得多，这也意味着不同用户会带来截然不同的营业赢利率。

LLM在查找中的开展

将LLM直接融入查找并不是改进查找的仅有办法。 多年来，谷歌一向在查找中运用言语模型来生成embeddings。这种办法能够在不添加推理本钱预算的基础上，改进最常见的查找成果，由于这些embeddings能够一次生成，供多个查找成果运用。

比较ChatGPT具有的2000个Token输出总数，从Bing GPT的84个不同的实例来看，Bing GPT约为350个Token的输出总数显着较少。多数状况下，人们在查找时不肯阅读很多繁琐的信息。此估算考虑了未向用户展现的token。

后续优化是完成前2000个关键词占查找量的12.2%，其他的则是纯导航性查找（purely navigational searches）。假定20%的查找不需求LLM。最终，比较运用根据NVIDIA的HGX A100的Microsoft/OpenAI，谷歌运用内部TPUv4 pod的基础设施优势更显着。

这些简略的优化能够让谷歌以仅30亿美元的额定本钱将LLM布置到查找傍边。假如全部从一开始就完美设置，那么谷歌单在硬件上的开支本钱就约为200亿美元，其间包含数据中心基础设施。这是在NVIDIA H100和谷歌的TPU v5等新硬件或MoE、稀少性、剪枝、模型蒸馏、kv缓存和提前退出机制（early exit）等各种技能本钱添加之前的状况。

人们不会接受连接到互联网的ChatGPT接口。由于运转速度很慢、简略假造虚伪信息、而且无法有效变现。不过上述剖析依然过于简略化。

由于用户体会发生了改变，单位收入经济学（unit revenue economics）和本钱结构将在未来2到3年内敏捷改动，完成彻底重构。

假如要从收入和本钱方面更深入地了解这一改变，那么咱们首要要搞清当时的查找架构，由于它是未来改变的基础。

从较高的层面来看，查找的方针是赶快供给相关信息。用户输入关键词时，查找成果最好要按照好坏从上到下排列。查找工作流（search pipeline）主要有四个进程：爬虫、索引、查询处理器和广告引擎。机器学习模型早已渗透进这四个范畴。

爬虫

爬虫会主动定位互联网上的新内容，这些内容包含网页、图画和视频，然后它会将这些内容添加到查找引擎的数据库（索引）中。经过机器学习，爬虫能够确认要索引页面的价值并辨认其间的重复内容。它还能剖析页面之间的链接，评价哪些页面或许相关且重要，这些信息会被用于优化抓取进程，确认抓取内容、频率和程度。

爬虫在内容提取方面也起着重要作用。它的方针是完成网页爬取内容的全面文本化，同时使数据总量最小化，以保证查找的速度和精确度。时延（latency）关于查找来说至关重要，即使是几百毫秒的改变，也会极大地影响用户查找量。

谷歌和Bing运用图画和小型言语模型来生成在页面/图画/视频中并不存在的元数据。大规划扩展这些功用是将大型言语模型和多模态模型融入查找的突破点，现在一切简略的查找本钱模型都没有考虑到这一点。

索引

索引是一个用于存储爬取信息的数据库。在索引层中能够进行很多预处理，以最小化必要查找的数据量。这最大极限地削减了时延，进步了查找相关性（search relevance）。

相关性排序：能够运用模型根据相关性对索引中的页面进行排序，以便首要回来用户查找查询最相关的页面。
聚类：能够运用模型将索引中的类似页面进行分组，让用户更简略地找到相关信息。
反常检测：模型能够检测索引并删除其反常页面或垃圾页面，然后进步查找成果的质量。
文本分类：能够运用模型根据内容和上下文对索引中的页面进行分类。
主题建模：模型能够辨认索引页面包括的主题，每个页面对应一个或多个主题。

尽管当时索引层是由较小的模型和DLRM完成，但假如刺进LLM，查找的有效性将会得到显著进步。 而其他简略查找本钱模型（model of search costs）都忽视了这一点。咱们将在本陈述的后面评论用例并估算本钱。

查询处理器

查询处理器是查找仓库中最受重视的层，用于接收用户的查询并生成最相关的成果。首要需求解析用户的查询，再将其分解为关键字和短语，然后从索引中抓取最相关的项，然后对用户的特定查询进行重新排序及过滤。此外，查询处理器还负责将这些成果回来给用户。

现在在该工作流中布置了多个模型，从简略的拼写检查到主动向用户查询添加相关术语的查询扩展，以进步查找成果精确性。依据用户的查找前史、方位、设备、偏好及兴趣对成果进行相关性排序及个性化处理。不过当时要想完成这一点需求在多个小型模型上运转推理。

由于用户提交的是实时查询，因而有必要快速高效地履行查询处理。比较之下，爬虫和索引是一个继续性的进程，且无需与用户进行交互。

此外，谷歌和Bing运用了截然不同的硬件以完成其经典办法（classical approaches）。谷歌运用了很多规范化CPU和内部TPU，而Bing现在运用的是很多规范化CPU和FPGA，其FPGA加快了排序办法（Ranking）和AI。

广告引擎

尽管查找仓库的最终三个部分是满足和留住用户的关键，但许多人以为广告引擎是最重要的，由于一切变现都源于广告引擎的质量。查询处理器与广告引擎是实时交互的，广告引擎有必要对用户查询、用户档案、方位和广告效果（advertisement performance）之间的联系进行建模，为每个用户生成个性化的引荐，然后最大极限地进步点击率和收入。

广告商场是一个实时竞价的大商场，广告商一般在这里为关键词、短语或特定用户类型付费。由于付出的金额并非衡量服务的仅有规范，所以广告模型不再将其作为仅有原则。由于该模型需求优化转化率以取得收益并进步比率，因而查找相关性是高度优化的参数。

整体而言，曩昔4年，谷歌查找成果的顶部页面有80%的成果没有任何广告。此外，现在只要一小部分(不到5%)的查找中有四个排名靠前的文本广告。——谷歌

运用了LLM，消费者阅读到就不仅限于前几个成果，这些成果中的广告能够变成广告商的销路。相反，现在广告成为了LLM的输出。因而，跟着对话LLM的问世，广告成了查找仓库中改变最大的一部分。咱们将在本陈述后半部分评论变现的方式和改变，由于这是广告服务运作方式的根本改变。

根本性改变

查找中的LLM不单是一个融入查找引擎界面的大模型。 相反，它是一个多模型交融的大模型，每个模型的使命是为整个链条中的下一个模型供给最密布、最相关的信息。

这些模型有必要根据活泼用户进行不断重新练习、调整和测验。谷歌是首个在查找仓库的四个层中运用人工智能的企业，但如今查找正在经历用户体会、运用形式和商业化结构的根本性改变，这或许会使许多软件仓库的现有部分失效。

问题的关键在于谷歌能否胜任这项使命。在保护好自己“金蛋（golden egg）”的前提下，谷歌能调整其查找仓库吗？

快速前行，打开局面。——马克扎克伯格，2011

在弄清楚运用形式（usage models）之前，谷歌在超优化（hyper-optimize）其查找仓库方面是否有文化要求？假定谷歌以最低本钱将过多资源投入运营中，而且到达了查找相关性的部分最大值。

在这种状况下，谷歌或许会迷失方向，反而限制了本该用于扩展和测验新运用形式的模型开展和立异。相反，微软和OpenAI更具冒险精神，更或许雷厉风行地对查找仓库的四个元素进行彻底改造。

谷歌过于慎重和过早优化的最显着比如就是研制Bard。

Bard将与LaMDA的轻量级版别一起发布。这个小得多的模型需求的算力更少，所以咱们能将其扩展到更多的用户，然后取得更多的反应。——谷歌

谷歌正在减缩（cut down）2021年头开发出来的一个模型。当然，从开发至今，该模型有所改进，但现在OpenAI和微软运用的是2022年末和2023年头开发出得更大的模型和更新的架构，并得到ChatGPT的继续反应。所以谷歌所见所闻该模型情有可原，但这也或许会让谷歌在用户体会和迭代速度方面遭到重创。

更令人担忧的是，在曩昔的几个月里，一些有远见高见的人才（例如BERT的教父，PaLM推理的首席工程师和Jax的首席工程师）开始涌向草创公司，比如OpenAI。这或许是谷歌的文化弱化（weakening culture）的迹象。

想象一下，假如这场查找竞赛导致谷歌的股票继续下跌，而RSU（限制性股权）的价值远低于预期，这对职工的士气和忠诚度有何影响？

或者说，由于Bing要抢夺商场份额，并抬高了谷歌现在具有的苹果专属协议，查找事务不再是无尽的摇钱树，那又会怎样？谷歌是否有必要在运营包含谷歌 Cloud在内的亏损事务时勒紧裤腰带？

时延

谷歌的Bard是一个较小的模型，时延呼应时刻较低。此外，谷歌内部还有一个十分优越的PaLM模型，但现在还无力布置。

即使时延为2,000毫秒（常规查找的4倍，包含互联网时延和20倍的处理时刻），PaLM也只能处理输入的60个token（约240个字符）和输出20个token（80个字符）。当在64个TPUv4上并行运转时，始终只到达约35%的运用率。

重要的是，LLM需求在查找仓库的非时刻敏感部分（non-time-sensitive portions）运用。此外，尽管时延会更高，但batch size越大，在仓库的这些部分完成的运用率就越高。

除了低时延规范，序列长度添加（sequence length growth）也是将LLM融入查找的最大应战之一。

Context至上

面向用户的模型和未来AI芯片的关键在于添加它们的context window（上下文窗口），以便能够经过层（layer）向前传送更多从前模型或源资料。就推理本钱而言，扩展序列长度的本钱也十分高，这会扩展本钱结构。

因而，在实时方面将围绕context window进行多种优化。在爬虫和索引阶段，能够最大化context window以尽或许地将源资料密布化，到达量力而行的高质量规范。

这样就能够在仓库的实时查询部分启用更小的模型，以最大极限地削减查找和context window的数量，然后削减时延并缩短呼应时刻。

整个查找仓库中的LLM完成

看看微软如何故相同的方式运用这些技能为某些高级企业的查找和对话式AI帮手供给服务，用AI扫描曩昔30年中的每个文档、电子邮件、Excel工作表、PDF和即时消息，这也是一件很风趣的事。如何在运营和基础设施层面想象新的查找仓库也很重要。

当然，谷歌依然具有其Android、YouTube、地图、购物、航班和相片等事务模块，在这些范畴微软简直无法与之竞赛。因而无论发生什么，这些事务模块都足以让谷歌在查找范畴保持领先方位。

欢迎 Star、试用 OneFlow 最新版别：
github.com/Oneflow-Inc…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ChatGPT搜索风暴