数据分析知识点掌握(有关于数据分析)(1)

前面的两篇文章,简单地分享了下关于数据分析这个工作所涉及到的岗位,流程和所用到的软件。这篇文章给大家分享下有关于数据分析的几个基本的知识点。当然,我分享的切入点还是以我的工作中所涉及到的主要内容为基础,这些内容也是在数据分析这个大类中普遍需要知道的基本知识。今天先给大家介绍三个数据分析中的基本知识点。

SQL语言:

SQL的全称是Structured Query Language,是数据分析中必须,一定要掌握的语言,除非你所在的公司数据量十分小,只用Excel就能解决所有问题(当然这种公司也不少),实话实说这种公司应该也用不到数据分析岗位。而只要一个公司数据量足够大,需要数据库,那SQL语句就是必须的,一定的。

还是想先从Structured说起,中文翻译是结构化,什么是结构化?用大白话说就是一个表格的第一行是各个列的名字,而剩下的所有行都是数值。举个例子说明就是如下图所示的表格就是一个结构化数据表格。

数据分析知识点掌握(有关于数据分析)(2)

而下图展示的是一个非结构化的数据表格:

数据分析知识点掌握(有关于数据分析)(3)

在数据分析中所要处理的数据都是如第一个图中所展示的结构化的数据表格。在实际工作中也确实会遇到数据源是非结构化的,且非结构化的数据格式也多种多样。这就需要在存入数据库前把非结构化的数据转变成结构化的,方法因实际工作情况而定。

数据分析知识点掌握(有关于数据分析)(4)

而SQL就是专门用在处理结构化表格的编程语言,尽管SQL的基本语法都大致相同,但不同的公司或平台对于SQL又有不同的扩展,尤其对于一些函数(Function)来说,不同的平台所用到的Function还是不同的。在微软的SQL Server中的SQL叫Transact-SQL或T-SQL,在Oracle Server中用到的SQL是PL-SQL,SAS中的SQL是SAS SQL等等。

数据类型(Data Type):

数据类型指的就是除去第一行每列的名字外,表格中的数值的类型,在我常用的软件SAS中,就是把所有的数据归为两类,一类是数字型(numeric),一类是字符型(character)。拿上面的结构性表格为例,就是在姓名一列中,数值是“张三”,“李四”等等这些都是字符型,说白了就是这些数值是“文字”,如果数据中包括特殊符号如“ ”,“$”等都属于字符型;而工资一列中的5000,5500等属于数值型。

有两点需要注意:第一个是一列只能有一种数据类型;第二个是有的时候一列虽然显示数字5000,5500等,但有可能是字符型数值,需要查看这一列的数据属性。拿excel来举例,很简单的就是右击,在格式(format cells)中查看数据类型。

数据分析知识点掌握(有关于数据分析)(5)

Excel中的数据类型查看(英文版)

SAS对于数据类型的定义是非常简单的,通常在别的平台中还有其他的数据类型,比如最常见的就是日期(在SAS中日期归为数字型)。数据类型在数据分析中是十分重要的,因为涉及到了后面的数据的计算和公式的使用。

数据的提取,转移和加载(ETL):

ETL,英文全称Extracting, Transferring and Loading,通过字面意思也能大概了解,这个过程是数据的转移,说的直白一点就是数据的“复制粘贴”。

虽然可以用“复制粘贴”来帮助理解,但ETL在数据分析中是一个无处不在的,甚至有时是十分巨大的工程,可以说存在在数据分析的方方面面,甚至在北美有很多的大公司中数据相关的岗位的主要工作内容就是ETL。

数据分析知识点掌握(有关于数据分析)(6)

比如在数据库的建立中,就有从原始数据(Raw File)中读取数据并且存入数据库,这个过程就是ETL。拿加拿大的银行系统来举例,客户的信用评分数据就是从第三方的信用评级机构中来(加拿大的是Equifax和TransUnion),而第三方的评级机构通常都是通过CSV file给到银行的,银行这边的数据库管理者(Database Administrator)根据第三方给的格式录入数据到数据库。

再比如在数据使用阶段,我们一般都是用不同的软件去提取数据库中的数据。在这个阶段,一个是需要建立好和数据库之间的连接;一个是就像上面所说,要注意数据类型在各个软件或平台间的定义是否相同,当然现在很多的软件都有自动转换数据类型的功能。

数据分析知识点掌握(有关于数据分析)(7)

另一个可能的场景就是数据库的转换。比如我们最近更换数据库,把从Oracle Server中的数据转移到SQL Server中来等等。而我知道的专门做ETL的一个工具就是SQL Server Integration Service(SSIS)。当然,市面上专门用来做ETL的工具还有很多,且每个数据分析相关的软件中都有ETL接口。

上面所提到的三个概念只是数据分析中的很小一部分,但也确实是数据分析中最基本的几个概念,且每个概念中也包含了相当多的内容,比如SQL语句,以后也会分享SQL的语法格式。当然未来也会分享更多的数据分析相关的概念,以及相关的专有名词,希望上面提到的这些能帮到大家。

图自网络,侵删。

,