离群点有许多别名,如离群点、孤立点、噪声和偏离点等,本文通称为离群点。离群点出现的原因很多,但可归结为3类:
-
数据变量固有变化引起;
-
测量错误引起;
-
执行错误引起。
当今,数据挖掘和知识发现的研究更多地关注发现常规模式。但是,在信用卡欺诈识别、入侵检测、军事侦察、灾害天气预报和医疗分析等应用中,离群模式比常规模式包含更多有用信息。离群点检测就是旨在发现偏离常规模式的小模式——离群模式。
代表性的离群点检测算法已有的离群点检测方法大多建立在统计学的基础上,从算法使用的主要技术路线角度,大致分为基于统计模型的方法、基于深度的方法、基于距离的方法、基于密度的方法、基于偏差的方法以及其它方法(如基于聚类的方法、基于小波变换的方法、基于图的方法、基于规则或专家数据库的方法和基于神经网络的方法等),如下图所示。
离群点检测算法分类
,