词频分析是什么呢?词频分析(Word Frequency Analysis)是对文献正文中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。

要彻底了解词频分析,必须先了解次词频统计方法。词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于某一个领域、文章中的重要程度。

我们来做个案例分析

以凌云县的在天眼车中的企业数据来做一个分析,分析当前在营业的众多企业中什么领域最火爆、资金实力、企业类型等。

数据:https://www.tianyancha.com/search?key=凌云县

数据可视化知识和技术(数据可视化之词频分析)(1)

数据样例

分析工具:1.图悦 http://www.picdata.cn/picdata/

2.exelce数据透视图

数据可视化知识和技术(数据可视化之词频分析)(2)

分析工具

第一步:数据清洗

我们需要利用经营范围数据分析火爆行业,但是经营范围中有部分信息是干扰的,比如:许可证和资质认定书在有效期内经营、不含危险化学品、不含爆破作业、具体经营项目以审批部门批准的为准等等。需要将这部分信息替换删除,得到最终我们需要的数据。

第二部;分析出图

将清洗后的数据复制到分析工具中分析。

数据可视化知识和技术(数据可视化之词频分析)(3)

分析结果-火爆行业

数据可视化知识和技术(数据可视化之词频分析)(4)

分析结果-企业类型占比

数据可视化知识和技术(数据可视化之词频分析)(5)

分析结果-年度企业注册情况

,