离群点检测的基本概念

离群点有许多别名,如离群点、孤立点、噪声和偏离点等,本文通称为离群点。离群点出现的原因很多,但可归结为3类:

  1. 数据变量固有变化引起;

  2. 测量错误引起;

  3. 执行错误引起。

当今,数据挖掘和知识发现的研究更多地关注发现常规模式。但是,在信用卡欺诈识别、入侵检测、军事侦察、灾害天气预报和医疗分析等应用中,离群模式比常规模式包含更多有用信息。离群点检测就是旨在发现偏离常规模式的小模式——离群模式。

代表性的离群点检测算法

已有的离群点检测方法大多建立在统计学的基础上,从算法使用的主要技术路线角度,大致分为基于统计模型的方法、基于深度的方法、基于距离的方法、基于密度的方法、基于偏差的方法以及其它方法(如基于聚类的方法、基于小波变换的方法、基于图的方法、基于规则或专家数据库的方法和基于神经网络的方法等),如下图所示。

离群点检测的应用包括什么(离群点检测概述)(1)

离群点检测算法分类

,