本文已参加「新人创作礼」活动,一同开启创作之路。

前语

Pandas数据可视化十分的好用,相对于Excel我们能够运用的愈加灵敏。而Pandas的可视化是依赖于Matplotlib库和seaborn库,Matplotlib本身也是一个功用十分丰厚的库,能够构建出很多直观简练多样的图片。而运用Pandas中DataFrame或是series数据集构建的可视化也在一些实践的数据剖析也特别有用。本篇文章将详细介绍各个不同绘图函数的功用和作用以及带来的展现效果。

一、检查Pandas版别

引进pandas后经过pandas.__version__就可看到版别:

print(pd.__version__)

二、图片展现设置

由于Pandas是依赖Matplotlib库和seaborn库来完成绘图的,所以设置字体也便是设置Matplotlib和seaborn绘图时的字体。在没有设置中文字体的状况下,显现中文的时分会呈现方块形状。

matplotlib的配置文件即 .rc 文件,为 matplotlib 输出图形的简直所有特点指定了永久的默许值。(图形特点包括包括窗体巨细、每英寸的点数、线条宽度、色彩、款式、坐标轴、坐标和网络特点、文本、字体等)

输入:

plt.rcParams.keys()

Pandas数据分析之Matplotlib数据可视化库函数详解运用
可检查rcParams参数设置,这里列出几个十分常用的rc参数函数: # 显现图画的最大规模

lt.rcParams[‘figure.figsize’]

#分辨率

matplotlib.rcParams[‘savefig.dpi’]

# 差值办法

plt.rcParams[‘image.interpolation’]

    //最附近插值
    resize(src, dst, Size(0, 0), 0.5, 0.5, INTER_NEAREST);//如果Size(0,0),则图画巨细为Size(width*fx height*fy)
    imshow("NEAREST", dst);
    //双线性插值
    resize(src, dst, Size(width * 2, height * 2), fx, fy, INTER_LINEAR);
    imshow("LineNear", dst);
    //双立方插值
    resize(src, dst, Size(width * 2, height * 2), fx, fy, INTER_CUBIC);
    imshow("CUBIC", dst);
    //LANCZOS插值
    resize(src, dst, Size(width * 2, height * 2), fx, fy, INTER_LANCZOS4);
    imshow("LANCZOS", dst);

灰度空间

plt.rcParams[‘image.cmap’]

//perceptual uniform sequential colormaps:感知均匀的序列化 colormap

sequential colormaps:序列化(接连化)色图 colormap;

gray:0-255 级灰度,0:黑色,1:白色,黑底白字;
gray_r:翻转 gray 的显现,如果 gray 将图画显现为黑底白字,gray_r 会将其显现为白底黑字;
binary

diverging colormaps:两端发散的色图 colormaps;

seismic

qualitative colormaps:量化(离散化)色图;

miscellaneous colormaps:其他色图;

rainbow

#设置字体和款式

plt.rcParams[‘font.sans-serif’]

//字体为SimHei显现中文

plt.rcParams[‘font.sans-serif’] = ‘SimHei’

款式

plt.rcParams[‘font.family’]

plt.rcParams[‘font.stretch’] = ‘normal’

plt.rcParams[‘font.style’] = ‘normal’

plt.rcParams[‘font.variant’] = ‘normal’

plt.rcParams[‘font.weight’] = ‘normal’

设置字体巨细

plt.rcParams[‘font.size’]

#设置显现字符

plt.rcParams[‘axes.unicode_minus’]

#设置线条款式

plt.rcParams[‘lines.linestyle’]

#设置线条宽度

plt.rcParams[‘lines.linewidth’]

想设置其他的参数可运用plt.rcParams.keys()自行寻找。

中文展现常用设置为:

import matplotlib as mpl
mpl.rcParams['font.sans-serif'] = ['KaiTi']
mpl.rcParams['font.serif'] = ['KaiTi']
mpl.rcParams['axes.unicode_minus'] = False 
import seaborn as sns
sns.set_style("darkgrid",{"font.sans-serif":['KaiTi', 'Arial']})   

三、常用图例

首先是绘图时函数的各个参数阐明:

class SeriesPlotMethods(BasePlotMethods):
    """Series plotting accessor and method
    Examples
    --------
    >>> s.plot.line()
    >>> s.plot.bar()
    >>> s.plot.hist()
    Plotting methods can also be accessed by calling the accessor as a method
    with the ``kind`` argument:
    ``s.plot(kind='line')`` is equivalent to ``s.plot.line()``
    """
    def __call__(self, kind='line', ax=None,
                 figsize=None, use_index=True, title=None, grid=None,
                 legend=False, style=None, logx=False, logy=False,
                 loglog=False, xticks=None, yticks=None,
                 xlim=None, ylim=None,
                 rot=None, fontsize=None, colormap=None, table=False,
                 yerr=None, xerr=None,
                 label=None, secondary_y=False, **kwds):
        return plot_series(self._data, kind=kind, ax=ax, figsize=figsize,
                           use_index=use_index, title=title, grid=grid,
                           legend=legend, style=style, logx=logx, logy=logy,
                           loglog=loglog, xticks=xticks, yticks=yticks,
                           xlim=xlim, ylim=ylim, rot=rot, fontsize=fontsize,
                           colormap=colormap, table=table, yerr=yerr,
                           xerr=xerr, label=label, secondary_y=secondary_y,
                           **kwds)
           --------
kind:种类 line(默许)
ax:要在其上进行制作的matplotlib.subplot目标,如果没有,则运用默许的subplot目标。 
figsize:图画尺度
use_index:True(默许),False。表明默许状况下,会将series和dataframe的index传给matplotlib,用已制作X轴。
title:标题
grid:网格
legend:图例
style,绘图的风格,如‘ko--’
logx:在X轴上运用对数标尺
logy: 在Y轴上运用对数标尺
loglog:
xticks=None,用做x刻度的值
yticks=None,用做Y轴刻度的值
xlim=None, X轴的边界如【0,10】
ylim=None,Y轴的边界
rot=None,  旋转刻度标签 0-360

Pandas数据分析之Matplotlib数据可视化库函数详解运用

一、线形图

显现数据的改变趋势,反映事物的改变状况。

可用于衔接收盘价而形成的图形,仅记录收盘价,至於开盘价、当日最高价、当日最高的变动及动摇起伏则欠缺 Dataframe.plot.line()

Pandas数据分析之Matplotlib数据可视化库函数详解运用

Pandas数据分析之Matplotlib数据可视化库函数详解运用
画一般的线图推荐运用:DataFrame.plot.line(self, x=None, y=None, **kwargs).

二、条形图

能够使人们一眼看出各个数据的巨细,易于比较数据之间的不同。

Dataframe.plot.bar()

Pandas数据分析之Matplotlib数据可视化库函数详解运用

堆积条形图

Dataframe.plot.bar(stacked=True)

水平条形图

Dataframe.plot.barh()

Pandas数据分析之Matplotlib数据可视化库函数详解运用

三、饼形图

饼图能够用来将 数据点(在图表中制作的单个值,这些值由条形、柱形、折线、饼图或圆环图的扇面、圆点和其他被称为数据符号的图形表明。相同色彩的数据符号组成一个数据系列) 显现为数据总额的百分比。

当多个数据点的数据值都小于饼图的 5% 时,区分各个扇区将好不容易。

扇形统计图能够比较清楚地反映出部分与部分、部分与全体之间的数量联系。易于显现每组数据相对于总数的巨细。

饼图必须设定y轴或许

subplots=True
  • subplots 为必要参数设置为True,当然也能够指定y的值。
  • figsize 图片的巨细。
  • autopct 显现百分比。
  • radius 圆的半径。
  • startangle 旋转视点。
  • legend 图例。
  • colormap 色彩。

Pandas数据分析之Matplotlib数据可视化库函数详解运用

四 、散点图

散点图表明因变量随自变量而改变的大致趋势,据此能够选择适宜的函数对数据点进行拟合。

用两组数据构成多个坐标点,调查坐标点的散布,判断两变量之间是否存在某种关联或总结坐标点的散布形式。散点图将序列显现为一组点。值由点在图表中的位置表明。类别由图表中的不同符号表明。散点图通常用于比较跨类别的聚合数据。

Pandas数据分析之Matplotlib数据可视化库函数详解运用

在运用scatter数据必须是DataFrame,需要指明x和y值。

DataFrame.plot.scatter('x','y')

五、面积图

运用场景:规模面积图用来展现持续性数据,可很好地表明趋势、累积、削减以及改变。堆积面积图还能够显现部分与全体的联系。折线图和面积图都能够用来帮助我们对趋势进行剖析,当数据集有合计联系或许你想要展现部分与全体联系的时分,运用面积图为更好的选择。

评价:大多用来展现差值改变

DataFrame.plot.area(stacked=False)

Pandas数据分析之Matplotlib数据可视化库函数详解运用

生成堆积图

df2.plot.area()

Pandas数据分析之Matplotlib数据可视化库函数详解运用

六、箱线图

箱线图是一种用作显现一组数据分散状况材料的统计图。因形状如箱子而得名。在各种领域也经常被运用,常见于质量办理。它主要用于反映原始数据散布的特征,还能够进行多组数据散布特征的比较。箱线图的制作办法是:先找出一组数据的上边际、下边际、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边际和下边际与箱体相连接,中位数在箱体中间。

Pandas数据分析之Matplotlib数据可视化库函数详解运用

Pandas数据分析之Matplotlib数据可视化库函数详解运用

这组数据显现出:

  • 最小值(minimum)=5
  • 下四分位数(Q1)=7
  • 中位数(Med–也便是Q2)=8.5
  • 上四分位数(Q3)=9
  • 最大值(maximum)=10
  • 平均值=8
  • 四分位距离(interquartile range)={\displaystyle Q3-Q1}=2 (即Q)

在区间 Q3+1.5Q, Q1-1.5Q 之外的值被视为应忽略(farout)。

  • farout: 在图上不予显现,仅标示一个符号∇。
  • 最大值区间: Q3+1.5Q
  • 最小值区间: Q1-1.5Q

最大值与最小值产生于这个区间。区间外的值被视为outlier显现在图上.

  • mild outlier = 3.5
  • extreme outlier = 0.5

图形参数:

DataFrame.boxplot(self, column=None, by=None, ax=None, fontsize=None, rot=0, grid=True, figsize=None, layout=None, return_type=None, **kwds)
df3.iloc[1:15].plot.box()

Pandas数据分析之Matplotlib数据可视化库函数详解运用

点重视,防走丢,如有疏忽之处,请留言指教,十分感谢

以上便是本期全部内容。我是fanstuck ,有问题大家随时留言讨论 ,我们下期见。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。