生产中如何将单表数据迁移到分库分表中

1：项目布景

“本文正在参与「金石计划」”，在新的项目中，有一个上传数据的功用，数据都是Excel格式的，前期的业务比较少，所以单表存储这些数据并没有什么压力，后面发现有些Excel都是几万，几万的数据，导致二个多月今后，数据现已到达了500多万了，项目才上线半年不到，主要这些数据仍是供给了查询功用，假如持续运用单表，那么总有一天会由于数据量太大导致查询效率低下，所以这时分想到了分表处理。

2：单表到多表的演变

通过评定，咱们终究决定运用Sharding-jdbc来完成分表。可是这时分就遇到一个问题，如何将老数据搬迁到新的表中。一般来说会有二种计划

停服处理

也便是将告知客户，体系正在升级，让客户过段时间再拜访，然后咱们在进行数据的搬迁，这种计划会简略很多，缺点便是体系有一段时间无法运用

不停服处理

在数据搬迁过程中，用户是无感知的，咱们在进行数据搬迁的过程中，体系能够正常拜访，缺点便是计划更加复杂

通过参议，咱们终究选用停服处理

3：搬迁计划

全体的完成流程如下

4：搬迁过程中需求考虑的问题

1：数据是一次性导入仍是批量

咱们的数据是一次性将悉数数据搬迁仍是分批次搬迁。我建议是运用分批次搬迁，一次性搬迁数据量太大，或许内存不足。

2：某个批次导入失利，怎样知道是哪个批次的数据导入失利了

已然咱们是运用分批次导入，那么其中有一个批次的数据导入失利了怎样办，咱们又是怎样知道那个批次导入失利了。所以这时分咱们会有一张搬迁记录表，改表记录了搬迁的批次，数据的规模，同步状况等一些信息，后续能够查看这张表，假如有某个批次数据搬迁失利，只需再次同步这一次批次的数据即可，这也是为什么咱们要运用分批次导入数据的原因，假如你是一次性搬迁悉数数据，那么假如半途失利了，那么又要从头搬迁，浪费资源又浪费时间

3：批量屡次导入，假如半途某一个批次导入失利，怎样办

假如某个批次导入失利了，那么咱们就从头导入就行了。

4：导入失利之后从头导入，有重复数据怎样办

某个批次导入失利，咱们就会从头导入，这个时分新表中或许现已存在这条数据了，所以咱们要做好数据校验，现已有的数据就不需求再次导入了

5：怎样校验数据悉数导进去了

这个也是最重要的，咱们要查验数据的准确性，是否有多导入的数据，或许少导入了数据

6：验证线上分库分表逻辑

这个便是在将数据从单表搬迁到多表之后，咱们要验证线上服务是否正常，数据是否正常

5：总结

停服处理相对来说仍是会简略些，之所以选用这种计划也是由于简略，只需求在数据搬迁完成之后验证数据准确就能够了

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。