软件工程师罗小东,多年渠道架构规划和落地经历,这里从智慧型项目、数字化项目进行数据办理建造的一些经历总结。

概述

针关于中小型团队和当时接触到的大部分项目来说,很少有非常大的数据办理需求,特别是互联网型的PB级数据。在大部分状况下,数据量在TB级或亿级等级较多。相关于PPT等级的方法论,会更加重视于实践运用,为了应对这些场景,在以下几个方面进行了考虑和优化

  • 是否真的需求树立一个Hadoop系统的数据仓库

  • 针关于中小型客户数据办理需求怎样建造

  • 怎样样针对当时的项目进行数据资源办理

  • 后期的数据办理和各个数据办理保护怎样做

在真实了解项目需求、精细化办理以及灵敏挑选数据办理东西和技能的基础上,可以更好地应对不同场景下的数据办理需求。不同项目不同架构,我有我思。

进程建造

许多客户都有数字化建造的需求,但不同的场景需求运用不同的技能计划,在详细的建造进程中,收拾的一些思路:

  • 首先要充分了解客户的事务场景和需求,然后挑选最适合的技能计划。

  • 在建造进程中,要重视数据质量和服务,以保证数据的准确性和才能体现。

  • 合理规划数据办理流程,包含数据采集、清洗、转化、存储等环节,并通过数据可视化手段展示数据办理作用,进步数据办理成效。

  • 关于不同的项目规模和预算本钱,挑选不同计划,优化算法和调整核算引擎,减少资源和本钱。

针对不同的客户场景,规划合理的数据办理流程。

是否真的需求树立一个全套的数据仓库系统

针关于不同的场景,关于数据办理,需求依据详细场景来挑选合__适的计划

前期的搭建方法

现在在搭建数据办理渠道时,开始咱们运用的是CDH做为数据仓库底座,通常运用Hadoop系统的数据仓库渠道,并依照ODS/DWD/ADS等层级进行区分,通过Kettle/Filebeat/Sqoop等方法抽取数据进行离线核算,运用Hive做为数据仓库,咱们的工程师在这块上也有多年的办理经历,核算引擎运用的倾向于Spark,数据建模和保护也是按通用的数据标准处理,这个有前期多个项目里面基本上都是,有一些项目会运转在K8S上。

这个进程消耗的资源较多,而且核算引擎和核算进程比较一致,特别是Spark核算的时分,消耗大量的内存资源。而关于一般中小型项目,或者一般的客户来说,这个资源的建造会本钱过高,特别是在数据办理这块并不是要求特别高的时分。

客户数据办理本钱高

一些客户可能并不了解数据办理的本钱和价值,除了政务型项目或不缺费用的项目,很难落地,没有到达预期的数据运营作用。

比如一个智慧社区项目,在这块上的数据仓库主要存储的数据在几个方面,用户行为、IOT数据采集、还有视频流数据的存储(只存储主键祯数据),另外就是一些事务系统的数据采集存储,针关于以上数据的剖析,与AI结合,供给出API服务才能,在这些数据中,超越一定生命周期的会做整理,最后评价出来10年左右180T存储,而这个进程中,大部分是冷数据。

最后建造运用的计划是云厂家的一体机来进行办理,可是这个本钱是极高的,类似于这样的数据场景,遇到的比较多,最后在考虑一个问题,是否需求这么重的数据仓库。

针关于中小型客户数据办理需求怎样建造的

树立一个轻量级的数据场景,以更好地满意不同项目的需求。建造轻量级数据办理渠道

建造轻量级数据办理渠道,是优化数据办理和保护本钱的方法之一。现在大数据套件较多,学习本钱较高,对中小型团队而言,这一本钱占比较大。因而,需求采取有用措施降低人员训练本钱和办理保护本钱。

将多个东西整合为轻量级数据中台,运用minio分布式存储、Clickhouse数据仓库、kettle抽取东西和kafka数据总线等技能一致数据办理,适配各类规模的企业需求。在数据整理和转化后,将数据存储到ODS层,非结构化和半结构化数据存储在分布式存储和ES中,并依据生命周期规划定期整理不必要的数据,只保存有价值的数据和流程相关数据。

此外,针对人员训练,规划系统化的训练课程和多种灵敏的训练方法,以进步职工的数据办理和剖析才能。关于团队办理和保护,可以树立数据办理的文化氛围,鼓舞全员参与,一起引入自动化东西和脚本,减少人工操作和办理本钱。

通过以上措施,项目可以建造出高效、灵敏的数据办理渠道,降低人员训练和办理本钱,进步数据办理才能和事务价值体现 ,完成项目的事务需求和决议计划方针。

怎样样针对当时的项目进行数据资源办理

建造通用的数据办理才能组件和渠道组件,以便依据详细项目需求进行挑选和组合,完成对数据资源的有用办理。

针对当时的项目进行数据资源办理,可以建造一套通用的数据办理才能组件和渠道组件。这些组件可用于多种场景下的数据办理作业,如:

  • 数据上报服务:供政务、个人、单位等通用型用户运用的通用数据采集上报渠道,支撑非技能型人员和部门进行数据入仓。

  • 数据总线服务:衔接数据渠道中不同组件和子系统的核心组件,完成数据的快速传输和交换,并一致集成数据主题办理。

  • 主数据办理服务:协助企业保证数据质量、进步事务流程功率,并为数据剖析和决议计划供给支撑,促进企业内部数据的标准化、办理和同享。

  • 数据集成服务:供给在线设置ETL作业、转化任务的定时运转战略,监控任务的履行状况,检查任务履行日志的功用,强有力地支撑后续的数据开发、数据发掘。

  • 数据开发服务:向数据开发工程师供给迁延拽控件的方法,规划杂乱的作业流有向无环图,发掘出有商业价值的数据。

  • 数据安全网关:供给数据交换、数据同享、数据敞开的渠道,包含网关接口安全、接口权限认证、黑名单办理、Oauth2接口认证等功用,向组织内各个部门供给支撑。

这些数据办理才能组件和渠道组件可依据详细项目需求进行挑选和组合,完成对数据资源的有用办理,咱们采用灵敏的数据办理计划,依据项目巨细和需求,挑选相应的数据办理东西和技能。

在供给东西的一起,针关于事务的个性化要求和事务开发需求,比如报表、大屏、还有数据服务运用等,当时是让ISV团队进行处理,而这个进程由中台团队供给技能支撑和训练,而数据办理套件不对客户。

后期的数据办理和各个数据办理保护怎样做

树立一套完善的数据办理流程和标准,包含数据质量控制、数据安全保护、数据继续更新等方面的要求

完成数据办理和各个数据办理保护的方针,包含数据流程标准化、人员技能训练、数据方针采集等。在实践应用进程中,需求依据企业的详细需求和状况,适当调整和优化数据办理战略,以进步数据质量和功率,为项目的开展供给有力支撑。

  • 数据流程标准化:通过数据总线服务衔接数据渠道中的不同组件和子系统,以便完成数据的快速传输和交换,并一致集成数据主题办理。树立标准化的数据流程,包含数据采集、清洗、存储、转化等环节,并保证每个环节都契合相关标准和标准。

  • 人员技能训练:运用主数据办理服务对企业内部数据进行标准化、办理和同享,保证数据质量和进步事务流程功率。一起,为各个层次的职工供给有针对性、系统化的训练课程,进步他们的数据办理和剖析才能。

  • 数据方针采集:运用数据集成服务在线设置ETL作业和转化任务的定时运转战略,监控任务的履行状况和检查任务履行日志的功用。保证多种数据格式和来历的数据通过清洗、转化后可以及时有用地送达组织的数据仓库,并为后续的数据开发和发掘供给支撑。

  • 数据办理方针达到:运用数据开发服务向数据开发工程师供给迁延拽式的控件,规划杂乱的作业流图,发掘出有商业价值的数据,协助企业完成对数据的全面管控和办理。一起,运用数据安全网关进行数据交换、同享和敞开的办理,保证数据的安全性和避免潜在的危险。

一起完成对数据的全面管控和办理,保证数据的质量和安全,进步数据开发和剖析的功率和准确性,然后更好地支撑企业的事务需求和决议计划,供给出数据服务和办理。

总结

数据办理是数字化建造中非常重要的一环。在进行数据办理时,咱们需求依据不同的事务场景和需求,挑选最适合的数据办理计划,包含挑选不同的组件拼装和数据存储方法等。关于轻量级数据办理渠道和重量级数据办理渠道,咱们可以针对详细状况进行挑选,权衡本钱与效益,以满意客户实践需求。在整个数据办理进程中,咱们还需求重视客户本钱的办理,保证项目的落地和实践作用,而且不断优化数据办理流程,需求积极参与事务需求剖析和技能选型,保证数据办理计划契合客户需求和行业标准。

进程考虑不同的场景挑选不同的数据办理计划和组件拼装,依据实践状况挑选轻量级或重量级数据中台,重视客户本钱办理和实践作用,以满意客户需求并推进数字中台建造。

以上为在大中小型项目中的数据办理经历输出,供给一些参阅。