现在很多广告都吹捧做数据分析都要用Python。其实都是为了割韭菜的,我和我身边哪些数据分析师起步做这行的时候基本上用的都是Excel。
这个问题咱么从头说起。
Excel概述Excel 基本上是微软为 Windows、macOS、Android 和 iOS 等不同操作系统开发的电子表格,配备了多种功能,例如计算、绘图工具、数据透视表和称为 Visual Basic for Applications 的宏编程语言(未来要融入Python)构成了 Microsoft Office 的每一部分。
在实际应用中,商业世界已经接受了 Excel,因为使用方式流畅、有效和灵活,几乎所有主要企业都以一种或另一种方式使用 Excel。适用于任何类型的业务流程,无论是销售、营销还是其他,是整体业务不可或缺的一部分。
由于大多数数据可以导入 Excel,因此 Excel 本身如何用于进行数据分析是很有趣的。
什么是数据分析?数据至关重要,而且当下流行的业务模式都已经成为数据驱动,但原始形式的数据并不是很有用。为了使用数据来获得可操作的信息,需要对其进行检查、清理和转换。这种过程就是所谓的数据分析。
有多种方法可以进行数据分析。这些不同的数据分析方式被用于商业、科学甚至社会科学等不同领域。事实上数据分析是当代商业世界蓬勃发展的东西。利用数据分析来收集商业智能以推动业务增长。
数据挖掘也是一种数据分析练习,但它侧重于发现新知识以用于预测而非描述目的。就统计应用而言,数据分析可以分为描述性统计、探索性数据分析(EDA)和验证性数据分析(CDA)。
虽然 EDA 旨在识别数据中的新特征,但是 CDA 努力确认或证明现有假设是错误的。
预测分析是应用统计模型进行预测预测或分类的练习。另一方面为了从文本来源中提取和分类信息,文本分析利用统计、语言和结构技术。
这些都是数据分析的变体。数据集成是数据分析之前需要的东西。数据分析还与数据可视化和数据传播有关。有时人们可以互换使用术语进行数据分析和数据建模。
为什么选择 Excel 进行数据分析?浏览数据本身可能是一场噩梦。
当查阅大量数据时,探索和处理数据非常棘手。分析它很可能是一个独特的挑战,但是并不是必须需要 Python,使用 Excel 也是可以的。
Excel 包含可以非常有效和高效地处理大量数据的函数。虽然数据分析的不同任务可能很棘手,但 Excel 函数非常简单,任何人都可以使用它们来分析数据。
也没有必要记住所有功能。可以简单地百度它并找出数据分析任务所需的功能。
就其速度、简单性和准确性而言,Excel 不仅对数据分析有用而且必不可少。可以节省宝贵的时间并有效地进行数据分析。
如何用Excel进行数据分析?以下是数据分析逐步过程的概述
- 指定数据要求。为了进行有效的数据分析,必须从一开始就明确数据需求。假设数据与人口有关,则需要指定和获取具体的变量,如年龄、收入等。获得的数据可以是数字或类别的形式。
- 数据采集。一旦指定了变量,就需要收集有关变量的信息。可以从各种来源收集并可供进一步处理。此数据可能不包含本表格中的任何见解。因此需要对其进行处理和清洗。
- 数据处理。需要组织收集的数据以进行进一步分析。这将需要以特定方式构建数据,使其与各种分析工具兼容。例如需要将数据放在表格中的行和列中,以便在电子表格或统计应用程序中进行进一步分析。甚至可能还需要创建数据模型。
- 数据清洗。虽然数据可能会被组织起来,但可能是不完整的。仍然可能包含重复的项目、也可能会出现一些错误。数据清理是纠正这些错误并使数据更准确的方法。有不同的方法来清理数据。假设它包含财务数据,肯定会有总计(sum)。然后可以将这些总数与真实的已发布的数据或其他一些参数进行比较。这样就可以清洗数据了。
- 数据分析。一旦数据经过处理和清洗等各个阶段,就可以进行数据分析。有许多技术可用于数据分析。数据可视化也可用于以图形格式投影数据。作为众所周知的统计模型的相关回归分析也可用于数据分析。
- 沟通。虽然数据分析似乎是流程的最后一步,但数据分析的结果需要以结构化的方式传达给最终用户。最终用户可能需要特定格式的结果。这就是一些数据可视化技术(例如表格和图表)可以证明非常有用的地方,因为它们可以非常简洁地传达信息。颜色编码和其他工具可以帮助简化它,并使能够更有效地传达调查结果。
在使用 Excel 进行数据分析时,可以这样做:数据采集、数据清洗、数据探索(使用数据透视表)、数据可视化。
数据采集- 第一步是以系统的方式收集有关变量的信息,这种过程将帮助我们找到重要问题的答案并评估结果。
- 数据收集部分至关重要,因为确保了数据的准确性,从而使与数据相关的决策变得有效。
- 数据收集也很有用,因为有一个可以衡量的基线,并且还可以获得一个想要达到的目标。
- 对于 Excel 可以从各种数据源收集和导入数据。数据源可能是:网页、微软Access数据库等地方。
从网页中提取数据
网站上刷新的数据,可以有效地使用不同的功能 Excel 功能。
网页中提取数据的分步过程
第 1 步:在 Excel 中打开一个带有空白工作表的工作簿。点击数据 -> 自网站 -> 从Web 。
第 2 步:在地址旁边的框中输入要从中导入数据的网站的 URL,然后单击执行。其中使用的数据2018 NBA Playoffs Summary | Basketball-Reference.com网址是这个。自己点击打开后复制。
这里可能会出现无法访问连接的情况,根据系统不同自己的情况自行百度处理。
第 3 步:选择加载数据自动的进行转化处理,不过这个加载的过程比较缓慢。
第 4 步:单击导入数据指定要放置数据的位置,然后单击确定。等待一会出现下面的界面即加载成功,可以根据需要加载不同的的页面数据,有点类似爬虫吧。
还可以从其他来源收集数据,例如:
- 来自 Microsoft Access 数据库
- 来自 csv、txt 和 xml 等文件
- 从 SQL 服务器
- 数据清洗就是找出并纠正数据集中的错误,还包括用正确的部分替换不完整或不准确的部分。
- 在 Excel 中,可以使用以下技术清理数据:删除重复值、删除空格、合并和拆分列、通过连接或匹配来协调表数据。
1.删除重复行
- 当有大量数据时,可能会有一些重复的行。建议先过滤唯一值,以便在删除重复值之前确认结果。
- Excel 带有一个内置功能,可以从表中删除重复值。有了它可以根据选定的列从给定表中删除重复值。
按照以下步骤删除重复值:选择数据 -> 转到数据功能区 -> 删除重复值。
2.删除空格
- Excel 中的数据可能包含前导、尾随或多个嵌入的空格字符。排序、筛选或搜索时,这些字符有时会导致意外结果。
- 可以使用 Microsoft Excel 中的 TRIM 函数来删除文本中的所有空格,但单词之间的单个空格除外。
步骤 1:在相邻单元格 C1 中输入公式 =TRIM (A1),然后按 Enter 键。
第 2 步:选择单元格 C1 并将填充手柄向下拖动到要删除前导空格的范围单元格。然后你可以看到所有单元格内容都被提取了,所有前导空格都被删除了。请看截图:
3.合并和拆分列
- 在 Excel 中将两列或多列合并或拆分为一列或将一列拆分为两列或多列是很常见的。
- 可能希望将包含地址字段的列拆分为单独的街道、城市、地区和邮政编码列。
第 1 步:转到数据选项卡,在排序和过滤组中。单击文本到列。然后选择数据 -> 分列。
第 2 步:单击并在“空格”复选框上打勾,数据分隔符是“空格”。当点击它时将能够在数据预览框中看到正在分离的数据。然后单击下一步按钮。
第 3 步:单击目标以选择要拆分文本的位置,然后单击“完成”按钮。
第 4 步:可以看到列中一个单元格的文本已拆分。
还可以将此功能用于可能需要合并到一列或拆分为多列的其他常见值,包括产品代码、文件路径和 Internet 协议 (IP) 地址。
4.通过join或match对表数据进行对账
Excel 还可用于在连接两个或多个表时查找和更正匹配错误。这可能需要协调来自不同工作表的两个表,例如可以使用它来查看两个表中的所有记录或比较表并查找不匹配的行。
函数 vlookup() 将有助于执行此任务,它在表数组的第一列中搜索一个值,并从表数组的另一列中返回同一行中的值。
让我们看看下表(订单和客户)。在订单表中,我们希望根据公共键“客户 ID”从客户表中映射城市名称。
在这里,函数 vlookup() 将使我们能够执行此任务。转到公式选项卡-> 在函数库中单击查找和参考-> 单击 Vlookup。现在我们将使用 VLOOKUP 函数并将这个公式输入 E3。
Vlookup 语法:
- Lookup_value : 查找键 A4
- Table_array:源表 Table_array - I:L
- Col_index_num : 源表的列 – 4
- Range_lookup :你对相对匹配还好吗? – 0
这将返回所有客户 ID 1 的城市名称,并发布为所有客户 ID 复制此公式的内容。请看下面给出的截图:
使用数据透视表进行数据探索
- 数据探索是对数据进行初步调查以找出模式、发现异常、检验假设并借助汇总统计数据和图形表示检查假设的重要过程。
- 为什么它如此重要是因为可以利用探索数据并理解拥有的数据。然后可以弄清楚想问什么问题以及如何构建它们,以及如何最好地操作可用数据源以获得需要的答案。
Excel 的数据透视表是一个汇总表,可让根据选择的参考功能进行计数、平均、求和和执行其他计算。
第 1 步:创建一个如下所示的数据透视表:选择表格 -> 转到插入选项卡,在表格组中,单击数据透视表,然后选择想要数据透视表的现有工作表位置。
第 2 步:可以看到“数据透视表字段列表”面板,其中包含列表中的字段。需要做的就是将它们排列在面板底部的盒子中。完成此操作后,左侧的图表将成为数据透视表。
数据可视化:
- 由于探索数据非常重要,数据可视化作为一种我们可以探索数据的技术对我们来说也变得至关重要。
- 数据可视化是以图形或图形格式呈现数据。这种图形格式之所以重要,是因为决策者可以更轻松地看到直观呈现的分析。换句话说,他们可以更容易地掌握困难的概念或识别新模式。
- 在 Excel 中,有 2 个功能(图表和数据透视图)是最流行的数据可视化功能。
1.图表:Excel 中的一个简单图表可以比一张满是数字的表格说明更多。如所见,创建图表非常简单。
创建简单折线图:
第 1 步: 在“插入”选项卡的“图表”组中,单击“线”符号。
第 2 步:现在要创建折线图,请单击带有标记的线。
2.数据透视图
数据透视图是 Excel 中数据透视表的直观表示。数据透视图和数据透视表是相互连接的。返回数据透视表以了解如何创建此数据透视表。
步骤 1:单击数据透视表内的任何单元格 -> 在插入选项卡上的图表组中,单击数据透视图。然后出现插入图表对话框。单击确定以创建数据透视图。
创建数据透视图后,可以根据特定需求对其进行自定义,通过过滤图表属性和更改图表类型来传达想要的消息。
高级工具和附加组件:PowerPivot
Excel 有 1048576 行的限制,这意味着不能分析超过 1048576 行的数据。
Power Pivot 是 Excel 2010 中首次引入的 Excel 加载项,它让有机会同时导入、合并和准备来自更多数据源的数据。
可以将来自许多不同来源(SQL、Azure、Oracle、Excel、Access 等)的许多表导入 Power Pivot,然后可以将所有这些数据相互关联。
这意味着可以构建一个包含来自多个不同来源的多个数据集的数据模型,并通过连接它们获得在一个数据透视表中分析它们的能力。
工具包在开发复杂的统计或工程分析时,可以使用分析工具库来节省步骤和时间。
需要做的就是为每次分析提供数据和参数,该工具使用适当的统计或工程宏功能来计算并在输出表中显示结果。除了输出表之外,一些工具还会生成图表。
ToolPak 为数据分析提供了 19 种不同的特征(如相关、协方差、直方图、回归等等……)。
以上就是 Excel 做数据分析的入门介绍,有不明白的可以私信我吧。
,