基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

跟着移动互联网的一路狂飙,手机现已成为人们的新器官。出门不带钥匙能够,不带手机却是万万不能够的。而手机上,小小的摄像头也越来越成为各位「vlogger」的口袋魔方。每天有超越数亿的相片和视频被上传到百度网盘中,这些相片和视频大多来自于用户自己的摄影或收藏,掩盖的主题和内容适当广泛,包括人物、景色、动物、地标修建、素材等。他们记录着日子,也经过创意和创意展现着日子。但由数量庞大、品种繁多,这些图画资源的办理和查找成为了用户的一大应战。

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

在和用户的沟通中,“找相片的进程十分痛苦”引起了咱们的共鸣。即使网盘供给了云上大空间供相片贮存,根底分类查找后的相片仍是如同汪洋大海。有时分为了寻觅一张在记忆中“闪现”的相片,需求长时刻在时光轴里滑动。

「如果能经过上一年夏天我在海滨的相片 这种关键词直接得到相片就好了」。

说干就干。

网盘的技能同学开端广泛调研市面上的图片查找功用。研讨发现,目前大部分都是根据标签的图片查找办法。这往往需求用户手动或者AI帮助增加标签或关键词,才干进行检索和匹配。然而,因为一张图片往往有许多不同的内容和特征,标签的限制导致用户只能增加少量有限范围内的标签,诸如简单的“猫”,“日出”等,无法全面地描绘图片的内容和特征。因而,现有的图片查找无法呼应用户愈加杂乱的图片描绘。

「怎样办?」用户这样问咱们,咱们就这样问自己。

「精准精准再精准」

话不多说,先来看看优化后的实践作用

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

从「鸟」到「海滨的鸟」,从「海滨」定位到「我在海滨」,从「宝宝」精准到「抱着宝宝逛街」……

百度网盘想做的,做成的,便是从「面」精准到「线」乃至到「点」。

为了处理这个问题,百度网盘引进了根据自然语言的图片内容语义检索办法,这种办法是运用深度学习和人工智能技能,将每张图片转化为一个向量表明,然后经过核算语言向量和视觉向量之间的类似度来进行查找和匹配。因为向量表明比传统标签愈加丰富,因而,能有用完结人们用自然语言查找图片的目的。

「为什么用向量?」信任这也是许多“行友”的疑问。

比较传统的标签查找办法,根据向量的语义检索具有以下优点:

  • 用户输入的灵敏度高:用户能够直接按照正常说话的方式进行检索,不需求考虑图片是什么标签;
  • 检索准确性高:因为向量能够全面地描绘图片的内容和特征,因而查找成果愈加准确和全面;
  • 可检索的内容广:百度网盘采用百度文心跨模态大模型ERNIE-ViL技能(不错,openai有一个类似的技能clip,这也是最近风靡全球的AI绘画的中心模型),这种技能运用了海量网络数据进行训练,然后能够了解和识别广泛的图片内容,无论是人物、景色、动物、地标修建、素材等各种领域的图片都不在话下;

因而,在百度网盘团队的尽力下,咱们真的做到了「精准精准再精准」,图片查找也不再那么“难”了。

有「AI」,咱们更「爱」搜了

实践技能产品化进程并非一往无前,咱们遇到了许多问题,这也是业界许多相册办理工具未供给类似功用的原因。从项目立项、作用验证到产品化,咱们花了超越四个月的时刻,直到22年8月底正式上线和咱们碰头。“怎样做到的?” “怎样了解自然语言” “还能更快搜到吗”……这些都是咱们和用户共同关注的问题。

搜得到

像“穿鞋子的猫”、“穿正装的相片”这种,传统的标签检索很难搜到。因而,咱们挑选了语义向量。无论是OpenAI开源的CLIP,仍是百度自研的交融了场景图知识的多模态预训练模型ERNIE-ViL,都很拿手处理语义匹配问题。

这类办法的中心原理是将检索文本和个人印象数据映射到同一语义向量空间,文本和个人印象数据向量之间的间隔越近,类似度就越高。这样咱们经过向量检索,来完结用中文文本查找对应图片的功用了。比较传统先打标签,再关键词查找的办法,根据语义的检索计划,直接完结了端到端的语义匹配,能够防止语义的丢失。

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

搜得准

在网盘用户的实践查找中,咱们发现,用户存在着杂乱多维度组合查询的需求。比如:上一年我在三亚海滨看日出的相片。其间包括了时刻、地址、人物的信息,这就超出了语义向量的能力鸿沟了,语义向量无法精准的判别时刻、地址,也无法知道你是谁。

但是,常常摄影的用户应该会说「咱们手机拍出来的相片,就包括了摄影时刻、经纬度等相关信息呀!」

没错,咱们正是经过提取这些元信息,把经纬度转换成实践的大街名、场所名称然后用来做时刻、地址的准确匹配。

「那怎样识别我是谁?」

别急,虽然识别“谁是你”相对杂乱一些,但咱们也找到了处理办法。在百度网盘备份过相片的用户,应该都知道智能分类。咱们会把相片中出现的同一个人物的相片聚合出来,你能够自己给这个人物打上标签,比如“我自己”、“宝物”等。咱们便根据这个标签来做人物的查找。有了这些信息,咱们就能够完结,时刻、地址、人物、事情组合的杂乱查找。回到上面这个比如,“上一年我在三亚海滨看日出的相片”,咱们拿到这个恳求,会首先解析出里边包括的各个元素:

  • 时刻:上一年

  • 地址:三亚

  • 人物:我

  • 事情:海滨看日出

其间,时刻、地址、人物能够用范围查询或者关键词查询来完结,事情适合用语义向量来完结,经过这样的组合查询,咱们终究就能得到用户想要的成果。

有些用户反应,图片的成果太靠后了,「在找图片的时分,总是要翻好几次才干看到,真难」

于是,咱们增加了对用户查找意图的了解,如果识别出来你是想要找图片,咱们就会把图片的回来成果放在最上面。

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

搜得快

处理了作用方面的问题,又出现了新的应战:怎样将技能变成用户可运用的产品?因为成本太高,效率太低,许多相册APP并没有把这种功用开放给用户。

「无所谓,我会溜走」(划掉

说正经的!

影响速度的环节有许多,整个进程中,咱们首先需求提早对用户的图片进行向量核算,并建立索引,然后查询的时分,能够快速的对用户的query进行剖析并完结图片向量的检索,终究把成果排序后出现给用户。这个流程中咱们遇到了许多应战:

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

端+云结合

  • 咱们在云上对已备份的图片进行向量核算,防止了数据在用户设备和服务器之间公网传输的延时,也弥补了用户设备算力缺乏的问题,能够快速的完结向量核算的工作
  • 在云端完结向量核算后,经过实时数据同步通道,及时下发到用户设备本地建立索引,用户在查询的时分,能够直接在本地完结向量检索

端本地索引优化:为了节约用户本地的索引存储量,一起尽或许减少核算量,咱们对索引进行了大量的压缩,优化后,即使图片规模到达10w,向量检索速度也能够到达ms(毫秒)等级,终究回来成果的延时能控制在秒等级。

端+云向量检索流程如下图所示:

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

  1. 恳求云端核算文本“黄色的猫”的特征向量和LSH(Locality-Sensitive Hashing,部分灵敏哈希)编码;

  2. 核算文本和图片LSH编码相等的维数,找到相等维数超越阈值的图片子集 a. 这儿运用的LSH编码具有如下特色:相同的维数越多,向量类似的概率越高 b. 这样咱们就找到了一批与查询的文本向量类似度较高的图片子集,能够节约后续向量类似度核算的次数。

  3. 在候选的图片子集中,核算图片向量与文本向量的类似度,按照类似度,从高究竟回来

异构算力调度:除了要每天为新增的亿等级数据核算向量特征外,咱们还需求继续的对用户存量数据进行核算。为了让有迫切需求的用户,能够尽快运用到这个功用,咱们也供给了请求加速开通图片高档查找的通道,优先为请求用户核算数据。为了运用全部能够核算的资源来加速核算作用,咱们开发了一套能够统一办理CPU、GPU等异构资源的调度系统,充分运用闲置资源,来完结尽或许快的掩盖更多用户。

搜更多

除了图片语义检索,咱们之前也收到了用户各式各样的找图需求,比如:想查找图片里的文字、想给朋友圈文案配一张以前拍的图片。

「安排,统统安排!」

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

针对 「查找图片里的文字」 , 用户能够在查找筛选里敞开,敞开后或许需求等候文字提取完结

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

「我想要朋友圈文案配图片」你不妨直接搜一下,咱们会给你引荐相册里最适合这句话的图片,就像

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

怎样用?

在百度网盘,查找“高档图片查找”,点击“敞开高档图片查找功用”,点击“立即体会”,等候图片核算并建立索引后即可体会,咱们会在核算完结后发送PUSH提示。

基于文心一言的底层视觉理解,百度网盘把「猫」换成了「黄色的猫」

变成「黄色的猫」以后*

阅历了种种曲折,项目终究成功上线。经过检测后台算力,咱们快乐地看到请求高档图画查找的用户占比正在慢慢提升。一起,用户也提出了一些建议和意见,比如图画查找不行精密等问题。咱们了解到,有的用户用这个功用办理视觉素材,还有的办理各种报销发票。前者需求更精密的特征提取,后者则需求引进文字ocr,经过把视觉和文本进行多模态交融查找,才干满足用户需求。

别的针对有些用户提出的「用户自定义的精密化图画标签能力」,如“我和爸爸的合照”、“我的自摄影”等,这对咱们模型训练和预测结构的伸缩性,提出了更高的要求。

用户不断多样化、个性化的需求,成为网盘产研例行工作评论的输入,一起也促进咱们继续在技能和产品上考虑和尝试。

作为一个智能化的存储工具,网盘现已逐渐成为人们日常日子和工作中必不可少的一部分。还记得许多年前,网盘在咱们心中的形象局限于“网络硬盘”。乃至相互开玩笑说,「这几个T的空间,什么时分能填满啊!」现如今,这儿填满了咱们的日子、工作和学习的各种记录,而且也成为咱们不可或缺的一部分。变成「黄色的猫」以后,咱们感激于咱们的信任,致力于不断的技能创新,让用户更快速、准确地找到所需的文件,带来全新的运用体会。

把「猫」变成「黄色的猫」,不是结尾,而是一个更高的起点,咱们前进的动力不断,学习的步履不止。咱们致力于将这只「黄色的猫」赋予更多或许性,然后变成您贴心的朋友、同事与亲人。

最后,欢迎咱们运用百度网盘的【高档图片查找】功用并活跃反应,咱们的鞭策将继续激励咱们的生长。