Python数据科学|第一章：数据科学家的武器库

本文已参与「新人创造礼」活动，一同敞开掘金创造之路

本系列教程为《Python数据科学——技能详解与商业实践》的读书笔记。该书以Python为实现工具，以商业实战为导向，从技能、事务、商业实战3个维度来打开学习。本书共19章（Python环境安装和Python根底语法法本系列教程不做解说），内容较多，旨在学习和记录。但惶恐本身才能有限，未及原书三分，故征得原书作者同意，才敢动笔。

1.1 数据科学的基本概念

数据科学并不是一门学科，它是为了完结商业或工业上的目标，从数据获取常识，为举动提出建议的办法、技能和流程的最佳实践。
本书供给了数据科学工作者的工作范式图，这儿将这个工作范式图简单进行描述：数据经过维度剖析转换为信息；信息经过建模剖析得到常识；常识结合事务目标以此进行决策和举动。
与数据科学相关的常识规划多个学科和领域，包括计算学、数据发掘、模式识别、机器学习（人工智能）、数据库等。

1.2 数理计算技能

1.2.1 描述性计算剖析

新闻报道中的居民收入状况，并不需要把每个人的收入都念一遍，而是取的均值。描述性计算剖析便是从总体数据中提取变量的计算量。在日常的事务剖析报告中，常使用该办法完结。在实践中，也便是经过Python进行数据计算，完结计算表和计算图的呈现即可。

1.2.2 计算揣度与计算建模

计算揣度及计算建模，意义是建议解说变量与被解说变量之间可解说的、安稳的，最好是具有因果关系的表达式（下文会具体介绍）。

1.3 数据发掘技能和办法

数据发掘的办法分为描述性和猜测性。猜测性模型从前史数据中找到规则，并用于猜测未来；描述性模型用于直观反映前史状况，为后续的剖析供给创意。
例如：判别客户是否违约，可经过客户的性别、年龄、收入、前史信誉状况等因素进行猜测。这儿便是猜测性模型。
经过客户标签对用户细分，以便针对不同客户做不同运营；依据客户的产品购买，发现产品间的相关性，用于绑缚营销。这些便是属于描述性模型。

1.3.1 描述性数据发掘算法

聚类剖析
相关规则剖析

1.3.2 猜测性数据发掘算法

决策树
KNN算法
Logistic回归
神经网络
支撑向量机
集成算法
具体的算法在后文中一一解说。

总结

第一章主要是起到总的作用，首先介绍了数据科学的概念和流程。接下来针对问题的难易，将数据科学需要用到的技能划分为：数理计算技能和数据发掘技能。这些技能也便是数据科学家的武器库。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。