数据之间的关联性计算（拆分-应用-合并）

#python##python打卡##春晚##Python数学编程#

数据之间的关联性计算（拆分-应用-合并）(1)

【大家在看春晚的时候，小编在写python文章，分享给大家，记得关注小编，这是最好的礼物！】

数据之间的关联性计算（拆分-应用-合并）(2)

前言

python语言中的groupby技术，是一种“拆分-应用-合并”的范式。所谓范式，它具有复用能力，可以应用到不同的符合的应用场景。pandas有两种数据结构，分别是Series和DataFrame。我们可以简单理解Series是一个没有列名的一组值，DataFrame是几个带有列表的列的组合。如果首次接触，可以多想想平时接触到的各种excel和csv等格式的数据文件，然后结合着去理解，不会感觉特别抽象。

基于“拆分-应用-合并”范式，计算平均数

根据groupby的“拆分-应用-合并”范式，DataFrame的列与列之间或两个Series之间的运算（比如分组加权平均）成为一种标准作业。接下来，我们先来创建一个数据集df，它含有分组键、值以及一些权重值：

数据之间的关联性计算（拆分-应用-合并）(3)

如上图中的代码所示，我们创建了DataFrame数据结构的对象df，包含两个三个键，分别为“category”、“data”和“weights”。第二步，根据“category”对df对象进行分组，并生成一个grouped对象。第三步，使用lambda函数创建get_wavgd对象。第四步则是对grouped对象应用get_wavgd，使用的是apply方法。

选取固定的字段

在实际数据处理的过程中，经常会做的一件事情就是从大的数据集中选择分析时所需要的字段。那么，如何进行字段的选取呢？我们一起来看下面的例子：

colse_px=pd.read_cs('G;\LPTPython\pydata-book-2nd-edition\pydata-book-2nd-edition \examples\stock_px.csv',parse_dates=false,index_col=0)

数据之间的关联性计算（拆分-应用-合并）(4)