MySQL 表界说主键不是有必要的,并且直到今日(MySQL 版别 8.3.0)都是这样。不过,在 MGR 和 PXC 架构中不允许运用没有主键的表。假如数据表没有主键,会有许多众所周知的负面功能影响,其中最痛苦的是复制速度很糟糕。

今日,我想快速说明一下 需求运用主键的另一个原因:磁盘空间!

创立一个非常简略的示例表:

mysql > show create table test1G
*************************** 1. row ***************************
       Table: test1
Create Table: CREATE TABLE `test1` (
  `a` int NOT NULL,
  `b` bigint DEFAULT NULL,
  KEY `a` (`a`),
  KEY `b` (`b`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci
1 row in set (0.00 sec)

填充 10M 测试行,需求 748M 磁盘空间。现在,假设我的测试表的 a 列具有仅有值:

mysql > select count(*) from test1;
 ---------- 
| count(*) |
 ---------- 
| 10000000 |
 ---------- 
1 row in set (1.34 sec)
mysql > select count(DISTINCT(a)) from test1;
 -------------------- 
| count(DISTINCT(a)) |
 -------------------- 
|           10000000 |
 -------------------- 
1 row in set (5.25 sec)

下面我将把索引类型更改为主键:

mysql > alter table test1 add primary key(a), drop key a;
Query OK, 0 rows affected (48.90 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql > show create table test1G
*************************** 1. row ***************************
       Table: test1
Create Table: CREATE TABLE `test1` (
  `a` int NOT NULL,
  `b` bigint DEFAULT NULL,
  PRIMARY KEY (`a`),
  KEY `b` (`b`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci
1 row in set (0.00 sec)

结果,该表被从头创立,其磁盘巨细减少到 588M,非常明显!

为什么会发生这种状况?咱们拥有完全相同的数据,并且在两种状况下都对两列都树立了索引!让咱们检查一下更改前后该表的更多详细信息。

之前,在没有主键的状况下,当两列都经过辅佐键树立索引时,咱们能够看到以下内容:

mysql > select SPACE,INDEX_ID,i.NAME as index_name, t.NAME as table_name, CLUST_INDEX_SIZE, OTHER_INDEX_SIZE from information_schema.INNODB_INDEXES i JOIN information_schema.INNODB_TABLESPACES t USING(space) JOIN information_schema.INNODB_TABLESTATS ts WHERE t.NAME=ts.NAME AND t.NAME='db1/test1'G
*************************** 1. row ***************************
     SPACE: 50
    INDEX_ID: 232
   index_name: a
   table_name: db1/test1
CLUST_INDEX_SIZE: 24699
OTHER_INDEX_SIZE: 22242
*************************** 2. row ***************************
     SPACE: 50
    INDEX_ID: 231
   index_name: b
   table_name: db1/test1
CLUST_INDEX_SIZE: 24699
OTHER_INDEX_SIZE: 22242
*************************** 3. row ***************************
     SPACE: 50
    INDEX_ID: 230
   index_name: GEN_CLUST_INDEX
   table_name: db1/test1
CLUST_INDEX_SIZE: 24699
OTHER_INDEX_SIZE: 22242
3 rows in set (0.00 sec)

居然还有第三个索引!经过 innodb_ruby 东西能够更详细地查看每个索引,能够看到它的巨细是最大的(id=230):

$ innodb_space -f msb_8_3_0/data/db1/test1.ibd space-indexes
id   name root    fseg    fseg_id   used    allocated  fill_factor
230      4      internal  3      27     27     100.00%  
230      4      leaf    4      24634    24672    99.85%   
231      5      internal  5      21     21     100.00%  
231      5      leaf    6      12627    12640    99.90%   
232      6      internal  7      13     13     100.00%  
232      6      leaf    8      9545    9568    99.76%

这便是 InnoDB 引擎的工作原理;假如没有界说明确的主键,它将添加一个名为 的内部主键 GEN_CLUST_INDEX。因为它包含整个数据行,因而其巨细开销非常大。

将二级索引替换为显式主键后,就不再需求隐藏索引了。因而,咱们一共剩下两个索引:

mysql > select SPACE,INDEX_ID,i.NAME as index_name, t.NAME as table_name, CLUST_INDEX_SIZE,OTHER_INDEX_SIZE from information_schema.INNODB_INDEXES i JOIN information_schema.INNODB_TABLESPACES t USING(space) JOIN information_schema.INNODB_TABLESTATS ts WHERE t.NAME=ts.NAME AND t.NAME='db1/test1'G
*************************** 1. row ***************************
     SPACE: 54
    INDEX_ID: 237
   index_name: b
   table_name: db1/test1
CLUST_INDEX_SIZE: 23733
OTHER_INDEX_SIZE: 13041
*************************** 2. row ***************************
     SPACE: 54
    INDEX_ID: 236
   index_name: PRIMARY
   table_name: db1/test1
CLUST_INDEX_SIZE: 23733
OTHER_INDEX_SIZE: 13041
2 rows in set (0.01 sec)
$ innodb_space -f msb_8_3_0/data/db1/test1.ibd space-indexes
id   name root    fseg    fseg_id   used    allocated  fill_factor
236      4      internal  3      21     21     100.00%  
236      4      leaf    4      20704    23712    87.31%   
237      5      internal  5      17     17     100.00%  
237      5      leaf    6      11394    13024    87.48%

GEN_CLUST_INDEX vs GIPK

每个 InnoDB 表都有一个集合键,因而不界说集合键不会节省任何磁盘空间,有时甚至相反,如上所示。因而,即便有问题的表中没有任何现有列是仅有的,最好仍是添加另一个仅有列作为主键。内部 GEN_CLUST_INDEX 不暴露给 MySQL 上层,只要 InnoDB 引擎知道它,因而关于复制速度来说没有用途。因而,显式主键始终是更好的解决方案。

可是,假如因为遗留使用程序问题而无法添加新的主键列,建议运用不行见的主键(GIPK)来当作主键。这样,您将获得功能优势,一起对使用程序是不行见的。

mysql > set sql_require_primary_key=1;
Query OK, 0 rows affected (0.00 sec)
mysql > create table nopk (a int);
ERROR 3750 (HY000): Unable to create or change a table without a primary key, when the system variable 'sql_require_primary_key' is set. Add a primary key to the table or unset this variable to avoid this message. Note that tables without a primary key can cause performance problems in row-based replication, so please consult your DBA before changing this setting.
mysql > set sql_generate_invisible_primary_key=1;
Query OK, 0 rows affected (0.00 sec)
mysql > create table nopk (a int);
Query OK, 0 rows affected (0.02 sec)
mysql > show create table nopkG
*************************** 1. row ***************************
       Table: nopk
Create Table: CREATE TABLE `nopk` (
  `my_row_id` bigint unsigned NOT NULL AUTO_INCREMENT /*!80023 INVISIBLE */,
  `a` int DEFAULT NULL,
  PRIMARY KEY (`my_row_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci
1 row in set (0.00 sec)
mysql > select * from nopk;
 ------ 
| a    |
 ------ 
|  100 |
 ------ 
1 row in set (0.00 sec)

因而,咱们的使用程序底子不知道新列。但假如需求,咱们仍然能够运用它,例如,轻松地将表读取或写入分成可预测的块:

mysql > select my_row_id,a from nopk;
 ----------- ------ 
| my_row_id | a    |
 ----------- ------ 
|         1 |  100 |
 ----------- ------ 
1 row in set (0.00 sec)

请注意,关于缺少主键的架构,在强制执行变量 sql_require_primary_key 之前,最好首要启用 sql_generate_invisible_primary_key 并运用逻辑备份和恢复从头创立数据。简略的表优化不会添加不行见主键。无论如何,关于遗留的使用来说,拥有不行见主键(GIPK)应该是一个双赢的解决方案。

更多技术文章,请拜访:opensource.actionsky.com/

关于 SQLE

SQLE 是一款全方位的 SQL 质量办理渠道,掩盖开发至生产环境的 SQL 审核和办理。支撑干流的开源、商业、国产数据库,为开发和运维供给流程自动化能力,提高上线效率,提高数据质量。