本文由 PieCloudDB Database 社区成员美国南加州大学陈振宇参加奉献

现现在,当人们被问到什么学科最火爆,就业率最高时,”数据科学”想必一定是其间的一个答案。《哈佛商业谈论》曾一度将“数据科学家”这一职业评为21世纪最性感的作业 (“Data Scientist: The sexiest job of the 21th century” – Harvard Business Review)。近年来,跟着可用的数据量日益激增,数据挖掘和剖析给企业带来了巨大的经济效应,数据科学范畴也得到了繁荣的开展。各行各业掀起了对数据科学家的招聘浪潮,越来越多的大学设立了数据科学相关学科来满足社会需求。在数据科学树立之前,数据研讨一向都是学术核算学范畴的作业,经过数据建模来对某种现象进行推论。跟着数据的开展,越来越多的人发现数据自身的价值,经过对数据的剖析和使用,咱们能够处理许多生活中的实践问题,而不只仅是停留在学术理论的研讨。第一个提出对传核算算学进行改革的吹哨人是John W. Tukey,他宣布的文章《The Future of Data Analysis》一向被人们看做是数据科学的起源。

image.png

数据剖析的未来

John W. Tukey是20世纪美国著名的核算学家。早在六十多年前,他就曾呼吁学术核算学家们减少对核算理论的注重,转而注重核算学的实践使用,其间最重要的部分便是对数据的处理和剖析。1962年,他宣布的《The Future of Data Analysis》文章震动了其时的核算学界。他提出了数据剖析(Data Analysis)这一新科学和其未来开展的可能性,并预言打破数理核算学鸿沟的数据年代将会到来。在文章中,他指出数据剖析的目的是经过对数据的搜集、处理和剖析来学习数据中的信息,处理咱们生活中所遇到的实践问题。

image.png

《The Future of Data Analysis》这篇文章为未来数据科学的开展奠定了根底。John W. Tukey 对该范畴的爱好与他的人生阅历休戚相关。1939年,Tukey 顺畅地取得普林斯顿大学数学硕士学位和博士学位。在研讨生时期,他首要从事数学方面的研讨作业。但是跟着二战的到来,他开端注重处理国家所面对的实践问题。1941年5月,Tukey 加入了普林斯顿大学设立的火控研讨室 (Fire Control Research Office)。在研讨室作业期间,Tukey 与工程师 Charlie Winsor 结识,并与多位核算学家深化探讨。最终经过数据剖析,Tukey 和他的团队协助美国在二战期间优化了其武器办理体系,他也因而对这种数学方式产生了稠密的爱好。

打破传核算算学的鸿沟

在 John W. Tukey 宣布了《The Future of Data Analysis》之后的几十年里,数据科学范畴并没有幻想中那般快速地开展,其首要的原因有3点:

  1. 绝大部分的核算学家都否定这门新的科学,以为他们现在所做的作业与数据科学的描绘毫无区别;
  2. 核算机及显示器等软硬件根底设备还没有开展到满足的地步;
  3. 数据的体量太小,没有体现出数据科学的重要性和与核算学的差别。

但跟着互联网的遍及,数据指数倍的快速增长使越来越多的核算学家们意识到数据科学的重要性,在许多如 John Chambers、C. F. Jeff Wu 等著名核算学家的尽力下,数据科学最终打破了传核算算学的鸿沟,在其开展历史上留下了以下重要的人物与事件:

1993年,John Chambers – “更容纳” 或 “更专有” 的核算学

1993年,John Chambers 在意识到核算学不能再只注重于传统推论后,宣布了题为《Greater or Lesser Statistics: A Choice for Future Research》的论文,呼吁核算学范畴学者对传核算算学的改革。在文中,Chambers 指出传核算算学专业在未来的研讨中将面对两种挑选:

  1. “更专有”(“ Lesser”):数学技巧为主导,专心于传统课题和数学自身,以学术研讨为主,与其他相关学科沟通较少
  2. “更容纳”(“ Greater”):从数据中学习,兼收并蓄,以使用为主,与其他相关学科沟通频频

Chambers 指出“更容纳”虽然充满了挑战,但会带来更多的机会;而“更专有”则有可能使传核算算学研讨变得越来越边缘化。因而 Chambers 呼吁要打破传核算算学的鸿沟,更多的专心于数据自身,正视数据剖析实质上是一种根据经验的科学。

1993年,Robert Gentleman & Ross Ihaka – R言语

1993年,Robert Gentleman 和 Ross Ihaka 根据S言语成功地开发了R言语,将其开源,使R得到了迅速地传播。R脚本能够具体记载撰写者数据处理的代码逻辑,社区用户可下载并运行被共享的脚本,节省自行开发的时间和精力,让这些代码逻辑能够在自己的数据上产生价值。因而,R言语的出世对数据剖析产生了巨大的影响,它彻底改变了人们对剖析数据、处理数据和可视化数据的方法。

R的数据结构包括向量、数列、列表和数据结构。其衍生出的各种库让R能够完成对各种核算的理论概念的使用,其间包括:

  • 线性、广义线性和非线性模型
  • 经典核算查验
  • 空间和时间序列剖析
  • 分类模型
  • 聚类模型

1997年,C. F. Jeff Wu – “核算学 = 数据科学?”

另一位对数据科学的开展做出了杰出奉献的是著名的使用核算学家C. F. Jeff Wu。1997年,Wu被聘为美国密歇根大学核算系教授。他曾在一次名为“ Statistics = Data Science?”(《核算学=数据科学?》)的演讲中将其时界说的「核算学作业界容」描绘为:数据搜集、数据建模与剖析和洞悉与决议计划三部曲,并提出了他对未来核算学开展方向的展望,呼吁将核算学从头命名为数据科学。

2001年,Leo Breiman – 《核算建模:两种文明》

2001年,加州大学伯克利分校的核算学家 Leo Breiman 宣布了一篇题为《Statistical Modeling: The Two Cultures 》的文章。这篇文章指出其时的核算学界关于数据建模构成的两种不同的文明,这也是核算学与数据科学之间最实质的差异:

  • 数据建模文明 – 揣度 (Inference):寻求树立合适数据的随机模型,然后根据这些模型的结构对数据的生成机制进行揣度。
  • 算法建模文明 – 猜测 (Prediction):不对数据的生成机制进行解释,而是允许多种猜测算法,然后对不同算法在不同数据集上做出的猜测的准确性进行探讨。

Breiman指出,98%的核算学家崇尚数据建模文明,即经过数据建模去进行因果揣度;只要2%的核算学家致力于算法建模,经过数据剖析来进行猜测,从而处理现实中的问题。因而,Breiman表明这种状况造成了核算学家们消耗很多精力研讨很多无关紧要的理论和存疑的定论,阻碍了他们去接触更有现实价值的问题。

2001年,William S. Cleveland – 数据科学的 6个焦点

同一年,William S. Cleveland 宣布了一篇标题为《数据科学:拓宽核算学技术范畴的行动计划》的文章。在文中,Cleveland 提出了数据科学的6个焦点,即使站在当下,这6个焦点也为学习数据科学这个范畴供给了一个很好的概念结构:

  • 多学科学术研讨 (25%)
  • 数据的模型和方法 (20%)
  • 数据的核算 (15%)
  • 教学 (15%)
  • 工具评估 (5%)
  • 理论 (20%)

image.png

21世纪,从理论到实践

数据科学的开展一向以来都与核算机范畴紧密相连。从1962年至今,数据科学一向都只停留在概念和理论层面。跟着21世纪核算机范畴的突飞猛进,数据科学的理论在一些数据软件工具中得以使用。因而,数据科学不只要求咱们掌握核算学中的理论知识来剖析数据,一起还需求熟练地运用如 Python、SQL、C++、Java 等编程言语来处理数据、树立模型以及完成可视化等。

20s,Python

如果说R言语奠定了数据科学根底,改变了传统的数据剖析方法,那么 Python 的呈现则拓宽了数据科学的潜能。不久前,TIOBE 发布了最新的编程言语排行榜,Python 再次夺得了排行榜的榜首。作为近年来最炽热的编程言语,Python 不只简单学习,且使用极其广泛。在各种老练的第三方库支持下,Python成为了强壮、高效的核算工具。除此之外, Python 作为一个连接器,它能够连接、调取、并且使用各种数据库的资源,如 Pandas,Scikit-Learn,TensorFlow 等。因而,Python 得到了很多数据科学家的追捧。在2019年,大约有 65.8%的数据科学家称他们在使用 Python,这无疑是一个巨大的比率,并且这个数字还在持续增长。

接下来,让咱们来看看有哪些重要的库首要引导了数据科学范畴开展到现在的规模。

· NumPy

NumPy关于数据科学家来说是一个不可或缺的数据处理工具。NumPy 是 Numerical
Python的缩写,专门用来处理矩阵数据。它的首要研讨对象是同种元素的多维数组,并且运算功率远高于列表,能够让数组和矩阵的处理愈加自然。一起 NumPy 库中包括很多实用的数学函数用以支持各种杂乱的如线性代数 、随机数生成等函数。

· Pandas

在日常的数据剖析过程中,数据清洗的作业是不可或缺的环节。Pandas 作为一个强壮的数据处理第三方库,不只能够对数据进行各种处理 ,还能够完成可视化、杂乱核算以及与各种数据库交互等功能,因而,Pandas 是数据科学家们使用率最高的库之一。Pandas 的根本数据类型一共有两种:

  • Series:单列多行的方式
  • Dataframe:多行多列的方式

· Matplotlib

Matplotlib 是 Python 专门的一个数据可视化工具库,它能够绘制多种类型的图表和高级图形。Matplotlib 使用起来十分简单便利,只需求几行代码便能够生成直方图、条形图、散点图等。

· Scikit-Learn

Scikit-Learn项目最早于2007年,由数据科学家 David Cournapeau 根据 Python 言语发起的一款专门针对机器学习的开源结构,依托于 NumPy、Scipy 等几种工具库来完成很多机器学习的模型。Scikit-Learn 的算法首要分为四类:

  • 回归算法
  • 分类算法
  • 聚类算法
  • 降维算法

· TensorFlow

TensorFlow 是 Google 开发的一款使用数据流图进行数值核算的开源库,首要用于深度学习。TensorFlow 接受高维度的多维数组方式的数据来练习和运用深度神经网络,并能快速处理很多数据。

在数据科学的开展过程中,越来越多的科学家和编程专家加入了数据相关范畴的研讨中,许多老练、杂乱的核算学概念以程序言语的方式得到了开发和运用。这个过程中衍生出了林林总总以数据开发使用为中心的新型代码库,咱们若有爱好可自行查阅。

2005年,Hadoop

21世纪初,大数据年代已然降临,一些科技公司,如 Google、Facebook 积攒了很多的原始数据 (raw data)。虽然硬盘贮存数据的容量得到了明显的提高,但在数据的读取速度才能上却止步不前。因而,这些公司急于探究一种新的模式去高效地处理巨大的数据体量。2005年,核算机科学家Doung Cutting和 Mike Cafarella 一起研发了开源的软件结构 Hadoop,用来存储和处理很多的数据集。Hadoop 结构中的两个核心为 HDFS 和 MapReduce 。HDFS 是一个分布式文件贮存体系,使数据能够被高效地贮存并多次读出,而MapReduce 则是一种分布式并行的核算引擎,它能够将大规模数据集的操作分配给各个子节点同步核算 ,最后整合各个子节点的结果得出最终的核算结果,使数据处理的才能得到了质的飞跃。Hadoop的结构设计理念激发了咱们对大数据处理的立异思维,为随后的 Spark、Flink、MADlib 等分布式核算工具的开展发挥了重要的作用。

Hadoop 的呈现让企业具有了处理很多数据集的才能,也让企业家们意识到数据处理在商业中的重要性。数据研讨不只使商业公司的许多问题得到了处理,并且协助他们探究新的商业模式、研讨消费者行为,在此根底上做出更好的商业决议计划。因而,各大公司空前渴望具有数据剖析才能的人才,这使数据科学在商业范畴中得到了迅速开展,并取得了很多的实践效果。

20s,云渠道

跟着越来越多的商业公司开端注重数据的重要性,数据的保存成为了各大公司重要方针。特别如 Amazon、淘宝、京东等大型的电商公司为了应对双十一、黑色星期五等大型的打折优惠节日中短时间内的数据激增,这些公司需求购买很多的设备来处理和贮存数据。当节日曩昔,数据量开端回归正常,大部分的设备开端搁置。因而,为了不让这些设备持续搁置,国际最大的电商 Amazon 开发了 Amazon Web Service (AWS) 云渠道,旨在将搁置的设备出租出去,让用户能够经过云渠道在没有物理服务器的状况下得到一系列服务,如弹性核算、存储、数据库等。一起,云渠道在大数据范畴中供给了云分布式存储以及分布式核算的计划,处理了数据科学家因为巨大的数据量导致的算力缺乏的问题。

· 云数据库

跟着云渠道的开展,云数据库也得到了行业界的注重。云数据库相较于传统数据库来说,不只完成了对 SQL 的完美兼容,一起还具备了备份、扩容、迁移等很多优势。2022年10月24日,国内顶尖的研发团队拓数派发布了全新的云原生数据库产品 PieCloudDB Database,其采用了打破式立异分布式技术 – elastic Massive Parellel Processing (弹性大规模并行核算),构建了以云原生、剖析型分布式数据库为引擎的数据核算渠道,为数据科学家供给了愈加便利、快速的数据获取、以及数据剖析的方法。

总结

自1962年 John W. Tukey 宣布的《The Future of Data Analysis》文章以来,数据科学得到了繁荣的开展。从起初停留在核算学理论层面到现在成为一门具有复合的知识体系且专业性极强的学科。越来越多的公司和机构开端组成数据科学团队来处理商业运营中遇到的各种实践问题。跟着数据的日益增长,核算机科学的持续开展,咱们相信数据科学范畴会在不久的将来深化咱们生活中的方方面面,为人们的生活带来更多的便利。

参考资料:

  • 50 years of Data Science
  • The Future of Data Analysis
  • John W. Tukey: His Life and Professional Contributions
  • TIOBE Index for November 2022
  • Python Leads the 11 Top Data Science, Machine Learning Platforms: Trends and Analysis