在数据分析中,抽样是指从全部数据中选择部分数据进行分析,以发掘更大规模数据集中的有用信息。在收集数据过程中,绝大多数情况下,并不采取普查的方式获取总体中所有样本的数据信息,而是以各类抽样方法抽取其中若干代表性样本来进行数据获取和分析。抽样的常见方法有单纯随机抽样、等距抽样和分层抽样等。
今天我们来学习一下单纯随机抽样如何操作吧!
不重复抽样
图4-113展示了某培训机构采集到的学员年收入数据表,需要采用不重复抽样的方式,从中随机抽取100条记录。
图 4-113 学员年收入采集表
步骤1:在F1单元格输入标题:随机字段。在F2单元格输入公式=RAND(),并向下复制填充。
RAND函数可以随机生成一个大于等于0且小于1的小数,而且产生的随机数几乎不会重复。公式运算效果如图4-114所示。
图 4-114 使用 RAND 函数生成一列随机值
步骤2:依次按下<Alt>键、<D>键、<F>键和<F>键,使数据列表进入筛选状态。单击F1单元格的筛选按钮,在弹出的下拉菜单中,依次单击【数字筛选】→【前10项】,在弹出的【自动筛选前10个】对话框中分别设置【显示】为“最大”“100”“项”,单击【确定】按钮关闭对话框,即可获取100条随机抽取的记录,如图4-115所示。
图 4-115 筛选前 100 项最大值
重复抽样
依然以图4-113展示的学员年收入采集表为例,倘若需要采用重复抽样的方式获取100条随机记录,可以使用以下操作步骤。
步骤1:在当前工作簿,新建一张工作表,命名为“重复抽样结果表”并制作表头,如图4-116所示。
图 4-116 新建一张工作表
步骤2:在重复抽样结果表的A2单元格输入以下公式,并复制填充至A2:A101单元格区域。
=INDEX
(学员收入采集表!A:A,RANDBETWEEN(2,COUNTA(学员收入采集表!A:A)))
RANDBETWEEN函数可以生成一个大于等于第一参数,且小于等于第二参数的整数。
步骤3:在重复抽样结果表的B2单元格输入以下公式,并复制填充至B2:E101单元格区域。
=VLOOKUP($A2,学员收入采集表!$A:$E,COLUMN(B1),0)
完成后结果如图4-117所示。
图 4-117 重复抽样计算结果
还想要学习其他数据处理与分析的技巧吗?快来看看应用大全吧!
推荐阅读
北京大学出版社
Excel数据处理与分析应用大全
,