注:此笔记仅由个人根据老师给的期末考纲进行归纳,我来为大家讲解一下关于多元统计分析例题?跟着小编一起来看一看吧!
多元统计分析例题
注:此笔记仅由个人根据老师给的期末考纲进行归纳
第1章多元正态分布的基本概念一、多元分布的基本概念1. 随机向量(概念)P2
2. 分布函数与密度函数(概念)P3
3. 随机向量的数字特征(公式)P4
二、统计距离1. 马氏距离的定义
马氏距离表示数据的协方差距离,是一种有效的计算两个未知样本集的相似度的方法。马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为∑的随机变量之间的差异程度。 是用坐标差平方除以方差(或说乘以方差的倒数),从而转化为无量纲数的,推广到多维就要乘以协方差阵∑的逆矩阵∑-1。
(欧氏距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。)
2. 欧氏距离与马氏距离的差别
欧氏距离是马氏距离的特例,马氏距离考虑了数据的协方差,马氏距离中协方差矩阵是单位矩阵时就是欧氏距离。
1)马氏距离的计算是建立在总体样本的基础上的,这一点可以从协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;
2)在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧氏距离计算即可。
3)还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆矩阵仍然不存在,比如三个样本点(3,4),(5,6)和(7,8),这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下,也采用欧氏距离计算。
4)在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的,而所有样本点出现3)中所描述的情况是很少出现的,所以在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧氏距离的最大差异之处。
三、多元正态分布1. 多元正态分布的性质:P10
四、均值向量和协方差阵的估计1. 离差阵的定义:P14
五、常用分布及抽样分布1. 分布之间的关系(不需要性质):P15~P18
第2章 均值向量和协方差阵的检验一、均值向量的检验1. 多元统计的检验(检验统计量):P22~P23
2. 多总体均值的检验(检验程序及分布)P25~P27
二、协方差阵的检验(这个看一下就好,均值检验公式才是重点)协方差阵的检验:P27~P28
第3章 聚类分析(填空、问答)注:聚类、判别、因子、主成分考很多问答题
1.聚类分析与判别分析的相关和区别(必考)1. 聚类分析。根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。根据分类对象的不同分为样品聚类(Q聚类)和变量聚类(R聚类)。
2. 判别分析。根据一定量案例的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立判别函数,然后便可以利用这一数量关系对其他未知分组类型所属的案例进行判别分组。
判别分析中的因变量或判别准则是定类变量,而自变量或预测变量基本上是定距变量。依据判别类型的多少与方法不同,分为多类判别和逐级判别。判别分析的过程是通过建立自变量的线性组合(或其他非线性函数),使之能最佳地区分因变量的各个类别。
3. 区别与联系。
都是研究分类的。(区别:聚类分析事先不知道研究对象的类别)
区别:(1)基本思想不同。
聚类分析的基本思想:根据相似性(亲疏关系),具体找出一些能够度量样品或指标之间相似程度的统计量,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。
判别分析的基本思想:对已知分类的数据建立由数值指标构成的分类规则即判别函数,然后把这样的规则应用到未知分类的样本去分类。
(2)研究目的不同。
虽然都是研究分类的,但在进行聚类分析前,对总体到底有几种类型不知道(研究分几类较为合适需从计算中加以调整)。判别分析则是在总体类型划分已知,对当前新样本判断它们属于哪个总体。
(3)聚类分析分两种:Q型聚类(对样本的聚类),R型聚类(对变量的聚类)
聚类分析需要注意的是,一般小样本数据可以用系统聚类法,大样本数据一般用快速聚类法(K均值聚类法),当研究因素既有分类变量又有计量变量,可以用两步聚类。
(4)判别分析。
有Fisher判别,Bayes判别和逐步判别。一般用Fisher判别即可,要考虑概率及误判损失最小的用Bayes判别,但变量较多时,一般先进行逐步判别筛选出有统计意义的变量,再结合实际情况选择用哪种判别方法。
聚类分析的基本思想(课本):
我们认为,所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)聚合为另一类......关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。聚类分析不仅可以用来对样品进行分类,也可以用来对变量进行分类。对样品分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。
2.系统聚类分析的基本思想先将聚类的样本或变量各自看成一群,然后确定类与类间的相似统计量,并选择最接近的两类或若干个类合并成一个新类,计算新类与其他各类间的相似性统计量,再选择最接近的两群或若干群合并成一个新类,直到所有的样本或变量都合并成一类为止。
(首先,将n个样品看成n类(一类包含一个样品),然后将性质最接近的两类合并成一个新类,得到n-1类,再从中找出最接近的两类加以合并,变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类,每类各有哪些样品。)
聚类分析的基本思想和功能是什么?
聚类分析的核心思想是根据具体的指标(变量〉对所研究的个体或者对象进行分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强。聚类分析不仅可以用来对样品进行分类,也可以用来对变量进行分类。对样品的分类常称为Q型聚类分析,对变量的分类常称为R型的聚类分析。
聚类分析的目的或功能就是把相似的研究对象归成类,即使类间对象的同质性最大化和类与类间对象的异质性最大化。
3.系统聚类分析的步骤P47看课本
系统聚类分析法的基本步骤为(数据的正规化和标准化;正规化和标准化数据)、(数据分类尺度计算;计算数据分类尺度)、(分类树形图的绘制;绘制分类树形图)和(类别的划分;划分类别)。
4.相似性度量(几个距离公式了解一下)P40-415.类和类的特征(方法):P44~P466.K-均值聚类的过程,操作步骤(程序、过程、操作步骤):P56-P57k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
7.系统聚类法的原理和步骤P62(1)系统聚类的基本思想是:距离相近的样品(或变量〉先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
(2)系统聚类的具体步骤:假设总共有N个样品(或变量)
第一步:将每个样品(或变量)独自聚成一类,共有N类;
第二步:根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其他的样品(或变量)仍各自聚为一类,共聚成N-1类;
第三步:将“距离”最近的两个类进一步聚成一类,共聚成N-2类;。。。,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。
第4章 判别分析(最核心的几个方法类,流程、思想)1. 判别分析的思想和步骤(必考)P821. 其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。
基本思想:根据判别中的组数,可以分为两组判别分析和多组判别分析;根据判别函数的形式,可以分为线性判别和非线性判别;根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
2. 步骤:已知某种事物有几种类型,现在从各种类型中各取一个样本,由这些样本设计出一套标准,使得从这种事物中任取一个样本,可以按这套标准判别它的类型。
判别分析的6个步骤过程:
(1) 判别分析的对象:这一步骤主要根据判别分析的研究目的定义观测变量。
(2) 判别分析的研究设计:主要包括解释变量和被解释变量的选择、估计判别函数所需的样本量和为了验证目的对样本的分割。
(3) 假定:推导判别函数的关键假定是解释变量的多元正态性和被解释变量定义的各组的未知但相等的协方差结构。
(4) 估计判别模型和评估整体拟合:研究者必须确定估计的方法,然后确定保留的函数个数;根据估计的函数可用多种方法来评估模型拟合。
(5) 结果的解释:这个过程主要介绍在判别分析中每个解释变量的相对重要性,主要有标准化判别权重、判别载荷(结构相关系数)、偏F值三种方法确定重要性
(6) 结果的验证:通常采用分割样本或者交叉验证法。
判别分析的流程:研究问题>设计要点>假定>估计判别函数>使用分类矩阵估计预测的精度>判别函数的解释>判别结果的验证。
2.距离判别:P84-P853.判别分析的上机步骤(例4-1)P90-P103第5章 主成分分析(考1个分析题,看下例题,解释重点表,内容含义,涉及计算,如何保留主成分)
1.主成分分析的原理、基本思想、步骤:对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。 设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
2.基本思想:保持原始变量尽可能多的信息的前提下达到降维的目的。
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
3.步骤:1. 指标数据标准化(SPSS软件自动执行);
2. 指标之间的相关性判定;
3. 确定主成分个数m;
4. 主成分Fi表达式;
5. 主成分Fi命名。
4.总体主成分及其性质:P110-P1155.主成分分析的上机实现(计算):P120-P132第6章 因子分析1. 因子分析的基本思想及步骤(原理、思想、步骤):基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
2.基本思想:P1353.步骤:P143(1)确认待分析的原始变量是否适合作因子分析;(2) 构造因子变量;(3)利用旋转方法使因子变量具有可解释性;(4)计算每个样本的因子变量得分。
4.因子载荷的求解:P139-142(主成分法、主轴因子法、因子旋转法)5.主成分分析与因子分析的区别与关联、异同点(必考):P143联系:两者都常用于数据降维和信息浓缩,都是从一个协方差阵出发。生成的新变量均包括了原始变量的大部分信息(一般大于80%,可根据具体情况定)且新变量之间互相独立,都可以用于后续的回归分析、判别分析、聚类分析等。主成分分析是因子分析的一个特例。
区别:
(1)原理不同
主成分分析(Principal components analysis,PCA)基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析(Factor Analysis,FA)基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)。
(2)线性表示方向不同
因子分析是把变量表示成各公因子的线性组合;
主成分分析中则是把主成分表示成各变量的线性组合。
(3)假设条件不同
主成分分析:不需要有假设;
因子分析:需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关。
(4)求解方法不同
求解主成分的方法:从协方差阵出发(协方差阵已知),因子从相关阵出发(相关阵R已知)。
(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)
注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况)。
求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。
(5)主成分和因子的变化不同
主成分分析:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的独特的;
因子分析:因子不是固定的,可以旋转得到不同的因子。
(6)因子数量与主成分的数量不同。主成分分析得到的主成分数等于原始变量数目;因子分析得到的因子数量一般由人为事先确定。
(7)解释重点不同
主成分分析:重点在于解释个变量的总方差;
因子分析:则把重点放在解释各变量之间的协方差。
(8)算法上的不同
主成分分析:协方差矩阵的对角元素是变量的方差;
因子分析:所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。
(9)优点不同
因子分析:对于因子分析,可以使用旋转技术,使得因子更好的得到解释,因此在解释主成分方面因子分析更占优势;其次因子分析不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据。
主成分分析:
第一:如果仅仅想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析,不过一般情况下也可以使用因子分析;
第二:通过计算综合主成分函数得分,对客观经济现象进行科学评价;
第三:它在应用上侧重于信息贡献影响力综合评价;
第四:应用范围广,主成分分析不要求数据来自正态分布总体,其技术来源是矩阵运算的技术以及矩阵对角化和矩阵的谱分解技术,因而凡是涉及多维度问题,都可以应用主成分降维。
(10)应用范围不同
在实际的应用过程中,主成分分析常被用作达到目的的中间手段,而非完全的一种分析方法,提取出来的主成分无法清晰的解释其代表的含义。而因子分析就是一种完全的分析方法,可确切的得出公共因子。
……主成分本质是一种线性变换,因子分析是描述原变量的相关阵结构的一种模型。……主成分的解是唯一的,而因子分析的解是不唯一的。……应用目的不同。
第8章 典型相关分析(1个问题,基本理论及方法)1. 典型相关分析的基本理论及方法(必考)(核心表达式要写,谁和谁相等):P188-P193基本思想:在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。
步骤:(1)确定典型相关分析的目标 (2)设计典型相关分析 (3)检验典型相关分析的基本假设 (4)估计典型模型,评价模型拟合程度 (5)解释典型变量 (6)验证模型 典型相关分析的用途很广。
(核心表达式要写,谁和谁相等!!!课本!!!)
第3章,聚类分析与判别分析的相关和区别(必考)
系统聚类,K-均值聚类
第4章,判别分析的思想和步骤(必考)P82
第56章,主成分分析与因子分析的区别与关联、异同点(必考):P143
第8章,典型相关分析的基本理论及方法(必考)P188-P193