项目的结构为:

python打柱状图(关于Python绘制柱状图等图形)(1)

代码字体以及Excel到这里面取:https://download.csdn.net/download/aaa123_456aaa/54707165

1、使用plot()方法绘制柱状图和折线图:DataFrame结构的plot()方法可以绘制折线图、柱状图、饼状图等各种形状的图形来展示数据,通过plot()方法的kind参数,也可以使用line()、bar()或其它方法绘制相应形状的图形。例如:df.plot(kind=‘bar’)df.plot.line()

import pandas as pd import matplotlib.pyplot as plt import matplotlib.font_manager as fm df = pd.read_excel(r'超市营业额2.xlsx') df.loc[df.交易额 > 3000,'交易额'] = 3000 df.loc[df.交易额 < 200,'交易额'] = 200 df.drop_duplicates(inplace=True) df['交易额'].fillna(df['交易额'].mean(),inplace=True) print(''.ljust(20,'=')) df_group = pd.crosstab(df.姓名,df.柜台,df.交易额, aggfunc='mean').apply(round) df_group.plot(kind='bar') df_group.plot.line() font = fm.FontProperties(fname=r'书法.ttf') plt.xlabel('员工业绩分布',fontproperties='simhei') plt.xticks(fontproperties='simhei') plt.legend(prop=font) plt.show() 123456789101112131415161718192021222324252627282930313233

python打柱状图(关于Python绘制柱状图等图形)(2)

python打柱状图(关于Python绘制柱状图等图形)(3)

注意:a、使用交叉表得到每个人在柜台交易额平均值时,我们使用了crosstab()函数,crosstab()函数的第一个参数是指定index,也就是DataFrame结构的索引。第二个参数是指定column,也就是首行。第三个参数是values,也就是表格值。第四个参数 aggfun=mean,代表要求什么值,mean代表均值,当然sum就是代表和的值了:b、pandas中可以使用round(n)方法返回 x 的小数点四舍五入到n个数字。简洁的说就是,四舍五入地保留小数点后面的几个数字。round()不添加任何参数的时候,等同于round(0)就是取整:那么代码中的这一行:df_group = pd.crosstab(df.姓名,df.柜台,df.交易额,aggfunc=‘mean’).apply(round)

python打柱状图(关于Python绘制柱状图等图形)(4)

c、我们为什么要给他设置字体呢?其实不设置也是可以的,但是显示不出来中文字体,所以要默认中文字体,还有就是plot()的调用好像和plt的使用没什么关系,其实不然,在使用DataFrame(df_group)的结构调用plot()方法时会自动调用扩展库matplotlib的功能,而plt就属于扩展库matplotlib的功能,所以可以直接绘画图形里面的值。

python打柱状图(关于Python绘制柱状图等图形)(5)

2、查看DataFrame的内存占用情况:DataFrame结构的memory_usage()方法可以查看内存占用情况,返回一个Series对象。例如:

import pandas as pd df = pd.read_excel(r'超市营业额2.xlsx') print('交易额列占用内存情况'.ljust(20,'=')) print(df['交易额'].memory_usage()) print('内存占用情况'.ljust(20,'=')) print(df.memory_usage()) print('内存占用总额情况'.ljust(20,'=')) print(df.memory_usage().sum()) print('使用df.info()查看内存占用情况'.ljust(20,'=')) df.info() 12345678910111213141516

运行结果:

交易额列占用内存情况========== 2072 内存占用情况============== Index 80 工号 1992 姓名 1992 日期 1992 时段 1992 交易额 1992 柜台 1992 dtype: int64 内存占用总额情况============ 12032 使用df.info()查看内存占用情况= <class 'pandas.core.frame.DataFrame'> RangeIndex: 249 entries, 0 to 248 Data columns (total 6 columns): 工号 249 non-null int64 姓名 249 non-null object 日期 249 non-null object 时段 249 non-null object 交易额 246 non-null float64 柜台 249 non-null object dtypes: float64(1), int64(1), object(4) memory usage: 11.8 KB 12345678910111213141516171819202122232425

3、concat()函数与append()方法:concat()函数pandas提供了concat()函数用于合并多个DataFrame结构,语法如下:concat(objs, axis=0, ignore_index=False, …)#1、参数obj表示包含多个Series、DataFrame或Panel对象的序列;#2、参数axis默认为0,表示按行进行纵向合并和扩展;#3、当然后面还有很多参数,执行import pandas pd,使用help(pd.concat)进行查看。append()方法也可以使用append进行合并,语法格式如下:append(other, ignore_index=False, verify_integrity=False)#1、这里面的假如我们写verify_integrity=True表示当列的索引有一样的时候就会报错。

import pandas as pd pd.set_option('display.unicode.ambiguous_as_wide',True) pd.set_option('display.unicode.east_asian_width',True) df = pd.read_excel(r'超市营业额2.xlsx') df5 = pd.read_excel(r'超市营业额2.xlsx',sheetname='Sheet2') df1 = df[:3] df2 = df[50:53] df3 = pd.concat([df1,df2,df5]) df4 = df1.append([df2,df5],ignore_index=True) df6 = df.loc[0:8,['姓名','柜台','交易额']] print(df1,df2,df3,df4,df6[:5],sep='\n\n') 123456789101112131415161718192021222324

运行结果为:

工号 姓名 日期 时段 交易额 柜台 0 1001 张三 2019-03-01 9:00-14:00 1664.0 化妆品 1 1002 李四 2019-03-01 14:00-21:00 954.0 化妆品 2 1003 王五 2019-03-01 9:00-14:00 1407.0 食品 工号 姓名 日期 时段 交易额 柜台 50 1004 赵六 2019-03-07 9:00-14:00 1340.0 食品 51 1004 赵六 2019-03-07 14:00-21:00 942.0 食品 52 1005 周七 2019-03-07 9:00-14:00 1465.0 日用品 工号 姓名 日期 时段 交易额 柜台 0 1001 张三 2019-03-01 9:00-14:00 1664.0 化妆品 1 1002 李四 2019-03-01 14:00-21:00 954.0 化妆品 2 1003 王五 2019-03-01 9:00-14:00 1407.0 食品 50 1004 赵六 2019-03-07 9:00-14:00 1340.0 食品 51 1004 赵六 2019-03-07 14:00-21:00 942.0 食品 52 1005 周七 2019-03-07 9:00-14:00 1465.0 日用品 0 1001 张三 2019-04-01 9:00-14:00 1367.0 化妆品 1 1002 李四 2019-04-01 14:00-21:00 1005.0 化妆品 2 1003 王五 2019-04-01 9:00-14:00 1460.0 食品 3 1004 赵六 2019-04-01 14:00-21:00 1270.0 食品 4 1005 周七 2019-04-01 9:00-14:00 1123.0 日用品 5 1006 钱八 2019-04-01 14:00-21:00 1321.0 日用品 6 1007 孙九 2019-04-01 9:00-14:00 1364.0 蔬菜水果 7 1007 孙九 2019-04-01 14:00-21:00 1633.0 蔬菜水果 工号 姓名 日期 时段 交易额 柜台 0 1001 张三 2019-03-01 9:00-14:00 1664.0 化妆品 1 1002 李四 2019-03-01 14:00-21:00 954.0 化妆品 2 1003 王五 2019-03-01 9:00-14:00 1407.0 食品 3 1004 赵六 2019-03-07 9:00-14:00 1340.0 食品 4 1004 赵六 2019-03-07 14:00-21:00 942.0 食品 5 1005 周七 2019-03-07 9:00-14:00 1465.0 日用品 6 1001 张三 2019-04-01 9:00-14:00 1367.0 化妆品 7 1002 李四 2019-04-01 14:00-21:00 1005.0 化妆品 8 1003 王五 2019-04-01 9:00-14:00 1460.0 食品 9 1004 赵六 2019-04-01 14:00-21:00 1270.0 食品 10 1005 周七 2019-04-01 9:00-14:00 1123.0 日用品 11 1006 钱八 2019-04-01 14:00-21:00 1321.0 日用品 12 1007 孙九 2019-04-01 9:00-14:00 1364.0 蔬菜水果 13 1007 孙九 2019-04-01 14:00-21:00 1633.0 蔬菜水果 姓名 柜台 交易额 0 张三 化妆品 1664.0 1 李四 化妆品 954.0 2 王五 食品 1407.0 3 赵六 食品 1320.0 4 周七 日用品 994.0 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748

注意:a、拆分时我们可以看见使用了loc,其实还有一个iloc,两者的区别是:首先df.loc[0:8,[‘姓名’,‘柜台’,‘交易额’]]这个的意思就是取前面的索引为0到8的行,并且列为 ‘姓名’,‘柜台’,‘交易额’:

python打柱状图(关于Python绘制柱状图等图形)(6)

那么df.iloc[0:8,0:4],前面是一共取8行,而ilocd的i表示Integer整数的意思,就是后面只能取整数列也就是0到4列的值,并且只能是整数,不能写成df.iloc[0:8,[‘工号’,‘姓名’,‘日期’,‘时段’]],因为里面不是整数值:

python打柱状图(关于Python绘制柱状图等图形)(7)

4、merge()方法与join()方法:merge()方法:DataFrame结构merge()方法也可以实现合并功能,语法如下:merge(right, how=‘inner’, on=None, left_on=None, right_on=None, suffixes=(’_x’, ‘_y’), …)#1、参数right表示另一个DataFrame结构;#2、参数how的取值可以是’left’、‘right’、‘outer’或’inner’之一,表示数据连接的方式;#3、参数on用来指定连接时依据的列名或包含的若干列名的列表,要求指定的列名在两个DataFrame中都存在,如果没有任何参数指定连接键则根据两个DataFrame的列名交集进行连接;#4、参数left_on和right_on分别用来指定连接时依据的左右侧列名标签。join()方法:DataFrame结构join()方法也可以实现按列对左表(调用join()方法的DataFrame)和右表合并,如果右表other索引与左表某列的值相同可以直接连接,如果根据右表other中某列的值与左表进行连接,需要先对右表other调用set_index()方法设定该列作为索引。语法格式如下:join(other, on=None, how=‘left’, lsuffix=’’, rsuffix=’’, sort=False)#1、参数other表示另一个DataFrame结构,也就是右表;#2、参数on用来指定连接时依据的左表列名,如果不指定则按左表索引index的值进行连接;#3、参数how的含义与merge()方法的how相同;#4、参数lsuffix和rsuffix用来指定列名的后缀。

import numpy as np import pandas as pd pd.set_option('display.unicode.ambiguous_as_wide',True) pd.set_option('display.unicode.east_asian_width',True) df1 = pd.read_excel(r'超市营业额2.xlsx') df2 = pd.read_excel(r'超市营业额2.xlsx',sheetname='Sheet3') rows = np.random.randint(0,len(df1),3) print(pd.merge(df1,df2).iloc[rows,0:7],end='\n\n') print(pd.merge(df1,df2,on='工号',suffixes=['_x','_y']).iloc[rows,:],end='\n\n') print(df1.set_index('工号').join(df2.set_index('工号'),lsuffix='x',rsuffix='y').iloc[rows,:]) 1234567891011121314151617181920

运行结果为:

工号 姓名 日期 时段 交易额 柜台 职级 21 1001 张三 2019-03-19 9:00-14:00 1376.0 日用品 店长 89 1003 王五 2019-03-04 9:00-14:00 1590.0 食品 组长 130 1004 赵六 2019-03-05 14:00-21:00 974.0 食品 员工 工号 姓名_x 日期 时段 交易额 柜台 姓名_y 职级 21 1001 张三 2019-03-19 9:00-14:00 1376.0 日用品 张三 店长 89 1003 王五 2019-03-04 9:00-14:00 1590.0 食品 王五 组长 130 1004 赵六 2019-03-05 14:00-21:00 974.0 食品 赵六 员工 姓名x 日期 时段 交易额 柜台 姓名y 职级 工号 1001 张三 2019-03-19 9:00-14:00 1376.0 日用品 张三 店长 1003 王五 2019-03-04 9:00-14:00 1590.0 食品 王五 组长 1004 赵六 2019-03-05 14:00-21:00 974.0 食品 赵六 员工 123456789101112131415

注意:a、我们可以看见使用join指定索引之后,我们原来的索引就不见了,但是merge没有不见,这是因为merge只是按哪一个属性值合并,并不改变原来的索引,但是后面的join是直接确定了新的索引,也就是我们的工号。b、聊聊’left’、‘right’、'outer’或’inner’这些数据连接方式的区别:1、‘left’ 左(外)连接,左表(a_table)的记录将会全部表示出来,而右表(b_table)只会显示符合搜索条件的记录。右表记录不足的地方均为NULL。大白话讲就是左连接left是以左表为主的连接2、'right 与左(外)连接相反,右(外)连接,左表(a_table)只会显示符合搜索条件的记录,而右表(b_table)的记录将会全部表示出来。左表记录不足的地方均为NULL。大白话讲就是右连接right是以右表为主的连接3、‘outer’ 返回左表和右表中的所有行。当某行在另一个表中没有匹配行时,则另一个表的选择列表列包含空值。如果表之间有匹配行,则整个结果集行包含基表的数据值。大白话讲就是外连接outer是全部连接,没有的直接填null4、‘inner’ 结果集中只保留了符合连接条件的元组,而排除了两个表中没有对应的或匹配的元组的操作称为内连接。大白话就是内连接inner就是只有共同存在的才连接.

,