word2vec 课程(word2vec实战篇品读金庸)(1)

“飞雪连天射白鹿,笑书神侠倚碧鸳”是金庸先生写过的十四本脍炙人口的武侠小说,作为一个在高三依旧每天阅读金庸小说的金迷,在刚学完word2vec的数学理论后,我迫不及待地想用这个工具来对金庸的小说做一个数据化的解读。

准备数据测试数据

测试小说内容

word2vec 课程(word2vec实战篇品读金庸)(2)

word2vec 课程(word2vec实战篇品读金庸)(3)

测试人名

word2vec 课程(word2vec实战篇品读金庸)(4)

发现绝对主角

word2vec 课程(word2vec实战篇品读金庸)(5)

word2vec 课程(word2vec实战篇品读金庸)(6)

word2vec 课程(word2vec实战篇品读金庸)(7)

word2vec 课程(word2vec实战篇品读金庸)(8)

word2vec 课程(word2vec实战篇品读金庸)(9)

word2vec

在这里主要用到的包有gensim和jieba。

分词:使用jieba

word2vec 课程(word2vec实战篇品读金庸)(10)

word2vec训练:使用gensim

word2vec 课程(word2vec实战篇品读金庸)(11)

找相似的词:

word2vec 课程(word2vec实战篇品读金庸)(12)

word2vec 课程(word2vec实战篇品读金庸)(13)

word2vec 课程(word2vec实战篇品读金庸)(14)

找相似关系:

word2vec 课程(word2vec实战篇品读金庸)(15)

KMeans聚类(龙套、配角、主角):

word2vec 课程(word2vec实战篇品读金庸)(16)

层次聚类:

word2vec 课程(word2vec实战篇品读金庸)(17)

word2vec 课程(word2vec实战篇品读金庸)(18)

项目地址

https://github.com/Jarod-Luo/hello-world

,