下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下。

1. 数据、信息和知识是广义数据表现的不同形式。

2. 主要知识模式类型有:

3. web 挖掘研究的主要流派有:

4. 一般地说,KDD 是一个多步骤的处理过程,一般分为:

5. 数据库中的知识发现处理过程模型有:

零基础学习大数据挖掘的(零基础学习大数据挖掘的)(1)

6. 粗略地说知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。

7. 决策树分类模型的建立通常分为两个步骤:

8. 从使用的主要技术上看,可以把分类方法归结为四种类型:

9. 关联规则挖掘问题可以划分成两个子问题:

10. 数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:

11. 衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:

12. 约束的常见类型有:

13. 根据规则中涉及到的层次,多层次关联规则可以分为:

14. 按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种:

15. 类间距离的度量主要有:

16. 层次聚类方法具体可分为:

17. 文本挖掘 (TD) 的方式和目标是多种多样的,基本层次有:

零基础学习大数据挖掘的(零基础学习大数据挖掘的)(2)

18. 在 web 访问挖掘中常用的技术:

19. 根据功能和侧重点不同,数据挖掘语言可以分为三种类型:

20. 规则归纳有四种策略:

21. 数据挖掘定义有广义和狭义之分。

22. web 挖掘的含义:

针对包括 Web 页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种 Web 数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。

23. K - 近邻分类算法 (K Nearest Neighbors,简称 KNN) 的定义:

通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的 K 个训练数据,K 个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。

24. K-means 算法的性能分析:

主要优点:

主要缺点

25. ID3 算法的性能分析:

26. Apriori 算法有两个致命的性能瓶颈:

27. 改善 Apriori 算法适应性和效率的主要的改进方法有:

零基础学习大数据挖掘的(零基础学习大数据挖掘的)(3)

28. 面向 Web 的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:

29. 简述知识发现项目的过程化管理 I-MIN 过程模型。

MIN 过程模型把 KDD 过程分成 IM1、IM2、…、IM6 等步骤处理,在每个步骤里,集中讨论几个问题,并按一定的质量标准来控制项目的实施。

30. 数据分类的两个步骤是什么?

31. web 访问信息挖掘的特点:

32. web 页面内文本信息的挖掘:

挖掘的目标是对页面进行摘要和分类。

在文本学习中常用的方法是 TFIDF 向量表示法,它是一种文档的词集 (Bag-of-Words) 表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。这种构造二维表的方法是:

对中文页面来说,还需先分词然后再进行以上两步处理。

这样构造的二维表表示的是 Web 页面集合的词的统计信息,最终就可以采用 Naive Bayesian 方法或 k-Nearest Neighbor 等方法进行分类挖掘。

在挖掘之前,一般要先进行特征子集的选取,以降低维数。

为了帮助小伙伴们更好的学习Python,技术学派整理了Python的相关学习视频及学习路线图。

领取方式

关注“技术学派”后,评论转发文章,私信回复:Python学习

,