我报名参加金石计划1期应战——分割10万奖池，这是我的第6篇文章，点击检查活动概况

1. 导言

咱们将对numpy，pandas，matplotlib，seaborn库进行综合运用，旨在熟练掌握这些根本工具。

1.1 项目需求：

首要，需要导入所需的模块：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

咱们先运用pandas读取csv数据文件：

file_name = pd.read_csv("链家北京租房数据.csv")
file_name

读取成果如下图所示：

检查数据集根本特点和信息：

运转成果如下图所示：

运转成果如下图所示：只能核算价格这一列的最大值最小值等核算学描述，其他列是object特点，不会去核算。

虽然数据集已经有了，但是数据会集可能还存在一定的问题，不能直接用来数据剖析。这就需要咱们进行数据预处理，比方：处理缺失值，处理重复值，一致数据类型等等。

# 重复值检测
file_name.duplicated().any()

运转成果如下图所示：

# 删去重复值
file_data = file_name.drop_duplicates()
file_data.shape
# s数据量变少了，阐明重复值已经被删去了

运转成果如下图所示：可以发现数据由8223条样本减少到5773条样本，阐明删去了一些重复值。

# 空值处理
file_data = file_data.dropna()
file_data.isnull().any()

运转成果如下图所示：

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。