数据分析的五个陷阱(数据产品经理必修课)(1)

离散化是什么意思?我们首先要理解“化”这个字的内在含义。举个词语“拟人化”,这是什么意思?其意思就是把什么变成人的样子,所以我们可以总结出这样的一个模式,即“XX化”就是“把某物变成XX的样子”。套用刚才的举例,离散化就是把数据这个事物变成离散的样子。

那么究竟怎么理解离散呢?不妨让我们看一个例子,请大家思考,年龄到底算不算离散?我们人年龄的取值可以是从0岁一直到100多岁,而且几乎取的是整数,从某种意义上来看中间并非是连续的,因为很多小数部分都是没有办法取到的,因而你可以说它是离散的。但是如果我们根据人的年龄把人分为幼儿、青年、中年、老年这样四个阶段,那么年龄的具体数值看起来就是应该更加连续,或者至少我们可以说它没有那四个阶段离散。因而这个时候我们把年龄又看成是连续的。由此可知,连续和离散完全取决于我们站在什么样的粒度上,除了一切没有基本争议点的数据离散或者连续属性外,我们可以采取这种一事一议的方式来判断究竟一系列数据到底是离散的还是连续的。

离散化总共有四种形式,下面分别介绍。

,