“飞雪连天射白鹿,笑书神侠倚碧鸳”是金庸先生写过的十四本脍炙人口的武侠小说,作为一个在高三依旧每天阅读金庸小说的金迷,在刚学完word2vec的数学理论后,我迫不及待地想用这个工具来对金庸的小说做一个数据化的解读。
准备数据- 金庸的小说(txt格式)
- names.txt(所有的人名)
- bangs.txt(所有的帮派名称)
- kungfu.txt(所有的武功名称)
测试小说内容
测试人名
发现绝对主角
word2vec
在这里主要用到的包有gensim和jieba。
分词:使用jieba
word2vec训练:使用gensim
找相似的词:
找相似关系:
KMeans聚类(龙套、配角、主角):
层次聚类:
项目地址
https://github.com/Jarod-Luo/hello-world
,