向量数据库(vector database)概念初认知

联系型数据库

在了解什么是向量数据库之前，必须先对常见的联系型数据库进行分析。

联系型数据库，是指选用了联系模型来安排数据的数据库，其以行和列的方式存储数据，以便于用户了解，联系型数据库这一系列的行和列被称为表，一组表组成了数据库。

同一组的实体具有相同的数据结构
实体经过主键(ID)安排数据结构 (使用树进行存储)
实体数据结构中的大部分特点都是能够参加比较的
至于那些不能够参加比较的特点，无法被检索
- 例如，数据只是编码，不能反映实体的联系，例如”太阳”、”月亮”、”星星” 编码上的比较不能反映

举例，咱们能够将图片(转为二进制)存放到联系型数据库，可是咱们没有办法直接以图搜图

字符串(自然语言文本)基本上也能够认为是无法比较的，因为大部分的操作都是十分昂贵的

向量化

向量能够进行比较，如果将那些不能够比较的数据转化成为向量，且这些向量的散布和间隔能够反映出实体的联系，那么就能够经过比较向量的要害进行检索，也就能够完成图搜图、文搜文的功用了

巧了，经过深度学习的模型，就能够完成向量化(或许应该称为vector embeddings)。例如能够将不同尺度、不同内容的图片映射成为同一个空间内的向量，或许将不同长度的文本映射到同一个向量空间内，在同一个空间中，相邻的向量具有附近的语义意义。(实际上向量数据库正是为了辅佐深度学习而生的)

尽管向量化是根底，可是向量化一般是专门的模型去完成，而不是数据库担任。(因为模型和事务强相关，且会定期更新)

可是需要数据库担任向量的存储、更新&版别办理

向量相似度检索（vector similarity search）

相对于传统的标量数据库

最近邻查找，或简称 ANN 查找，因为提出的解决方案数量之多，因而能够将其单独视为机器学习和模式识别的一个子范畴。

向量的存储与索引(Vector Index)

向量很长(高维数据) (矢量紧缩技术)
向量空间极端稀疏
向量间需要许多核算间隔，需要核算不同的间隔

第一种 Hashing-based

它的思路很简单，找到一组哈希函数，哈希高维空间里的一些点，那个值依然能表示出它的近邻联系，用这个哈希函数把这个空间分红许多份，在查询的时分，依据要查的数据先做一个哈希，找到对应的桶里面去，核算量就能够大大削减。

第二种 Tree partitioning based

它根据解释空间区分的一个思想，依照不同的纬度把空间进行屡次区分，终究做成一个树结构。

第三种 IVF

它本质上便是做一个聚类，然后在这个聚类当中找到每个聚类中心点，查询的时分去跟这些中心点做比较，间隔比较近的就认为可能有最近邻的数据，只去查找其中的一部分数据。

第四种 Graph based index

它的完成方式是构建近邻图，在高维空间下构建这张图的时分，经过一种算法去找到一些最近邻，在查询的进程中，从图上恣意一个点出发，不停地经过最近邻找到最近的节点，发现周围没有更优解了，它便是部分最优，如果分散的节点数足够多，终究召回率相对比较高。这种图结构索引相对履行速度比较快，但占有内存相对会大一些。

前两种做法它都存在一个比较大的问题，便是召回精度不够，随着纬度变大，召回精度可能会变得越来越低，现在在工业中主要是选用的后两种做法。

开源的向量数据库

Faiss

Facebook 开源的
一个 C++ library
vector indices

Milvus

根据 Faiss 开发
引擎层用 C++ 写的

Qdrant

根据 Rust 的向量数据库

总结

将上述提到的基本概念进行总结，个人认为，向量数据库有3个要害

向量化(编码)
- 不同于字符串文本编码或许图片的编码，向量化的模型可能会不断更新，这就对向量数据库提出了更新和版别办理的需求
- 向量化的质量，决议了向量数据库效果的上限
- 向量化进程无法通用，至少目前没有办法，是和事务强相关的
数据结构
- 合理地构建数据结构办理向量，并保证核算和检索时分的功能
- 这个点决议了向量数据库的功能，即决议了向量数据库效果的下限
间隔核算
- 怎么更合理的核算向量间的间隔，一起尽量削减资源的占用

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

向量数据库(vector database)概念初认知

联系型数据库

向量化

向量相似度检索（vector similarity search）

向量的存储与索引(Vector Index)

第一种 Hashing-based

第二种 Tree partitioning based

第三种 IVF

第四种 Graph based index

开源的向量数据库

Faiss

Milvus

Qdrant

总结

近期文章

近期评论