我报名参与金石方案1期应战——瓜分10万奖池,这是我的第7篇文章,点击检查活动详情

1. 引言

1.1 项目需求:

本节,咱们持续完善北京市租房数据处理实战,数据集根本处理请参阅本系列上篇文章:【数据处理】北京市租房事例实战(1) – ()。

留意:本事例运用Jupyter Notebook进行事例演示

首先简单回顾一下项目要求:

  1. 计算每个区域的房源总数量,并运用热力图对房源位置的散布情况进行剖析
  2. 运用条形计算图剖析哪种户型的数量最多、更受欢迎
  3. 计算每个区域的平均租金,并结合柱状图和折线图剖析各区域的房源数量和租金情况
  4. 计算面积区域的市场占有率,并运用饼图绘制个区间所占份额

2. 数据转化类型

在本数据集中,“面积(㎡)”这一列中存在中文字符,阐明这一列数据都是字符串类型的。为了便利后续对面积数据进行数学运算,所以需求将“面积(㎡)”一列的数据类型转化为float类型。

2.1 面积数据类型转化

  • 创立一个空数组用来接收新数据
  • 把”面积(㎡)”这列对应的值导出
  • 运用循环遍历,将对应的字符串切分后,追加到空数组中
  • i[:-2]:表明第i个元素的第一个字符到倒数第二个字符
  • append:在数组后追加新的元素
# 创立一个空的数组
data_new = np.array([])
data_ares = file_data["面积(㎡)"].values
for i in data_ares:
    data_new = np.append(data_new, np.array(i[:-2]))
data_new

运转成果如下图所示:

【数据处理】北京市租房案例实战(2)

  • 新数组中保存的数据虽然被切分成功,但是还不是数值的方式
  • 需求将其数据类型转化为浮点数
  • 代码如下所示:
# 转化data_new中的数据类型
data_new = data_new.astype(np.float64)
data_new

运转成果如下图所示:

【数据处理】北京市租房案例实战(2)

  • 将转化为浮点数今后的数组替换原数据集
  • 索引到要替换的列,然后对该列进行赋值
  • 具体代码如下所示:
# 替换原数据
file_data.loc[:, "面积(㎡)"] = data_new
file_data

运转成果如下图所示:可以看出”面积(㎡)”那一列数据的单位名称被切掉了,只保存浮点数方式,便利后续的数据处理。

【数据处理】北京市租房案例实战(2)