我报名参加金石计划1期应战——分割10万奖池,这是我的第6篇文章,点击检查活动概况

1. 导言

咱们将对numpy,pandas,matplotlib,seaborn库进行综合运用,旨在熟练掌握这些根本工具。

1.1 项目需求:

  1. 核算每个区域的房源总数量,并运用热力图对房源位置的分布状况进行剖析
  2. 运用条形核算图剖析哪种户型的数量最多、更受欢迎
  3. 核算每个区域的均匀租金,并结合柱状图和折线图剖析各区域的房源数量和租金状况
  4. 核算面积区域的市场占有率,并运用饼图绘制个区间所占比例

1.2 数据集介绍:

  • 数据集是有关于租房信息的揭露数据。
  • 详细特征包含所属区域、小区称号、房子、价格、房子面积、户型等等。

2. 代码演示

2.1 导入模块

首要,需要导入所需的模块:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

2.2 数据集处理

咱们先运用pandas读取csv数据文件:

file_name = pd.read_csv("链家北京租房数据.csv")
file_name

读取成果如下图所示:

【数据处理】北京市租房案例实战(1)

检查数据集根本特点和信息:

  1. file_name.shape:获取根本特点

  2. file_name.info():检查数据中每个字段根本信息

运转成果如下图所示:

【数据处理】北京市租房案例实战(1)

  1. file_name.describe():获取根本核算学数据描述

运转成果如下图所示:只能核算价格这一列的最大值最小值等核算学描述,其他列是object特点,不会去核算。

【数据处理】北京市租房案例实战(1)

2.3 数据根本处理

虽然数据集已经有了,但是数据会集可能还存在一定的问题,不能直接用来数据剖析。这就需要咱们进行数据预处理,比方:处理缺失值,处理重复值,一致数据类型等等。

2.3.1 重复值检测

# 重复值检测
file_name.duplicated().any()

运转成果如下图所示:

【数据处理】北京市租房案例实战(1)

2.3.2 删去重复值

# 删去重复值
file_data = file_name.drop_duplicates()
file_data.shape
# s数据量变少了,阐明重复值已经被删去了

运转成果如下图所示:可以发现数据由8223条样本减少到5773条样本,阐明删去了一些重复值。

【数据处理】北京市租房案例实战(1)

2.3.3 空值处理

  • isnull():判断是否存在空值,若没有空值返回false
  • dropna():删去空值
# 空值处理
file_data = file_data.dropna()
file_data.isnull().any()

运转成果如下图所示:

【数据处理】北京市租房案例实战(1)