哈利波特的咒语和中文读法大全(如何用神经网络写出哈利)(1)

摘要: 上次,数据侠黎晨用机器学习给大家带来《红楼梦》的分析,大家并不满足,纷纷强调要搞其他的文本来试试,然后DT君就……帮你们这些贪心的人找到了这个!英国赫尔大学的数据侠Jacob创造了一个“写手”程序,教大家如何模仿《哈利·波特》的口吻写文章。今后,哪怕没有教授带你玩,你也可以写模仿J.K Rowling的为哈利写一段咒语啦!

文/DT财经编译

我创造了个“写手”程序,能模仿大师写作风格哦

我最近在赫尔大学完成了我高级人工智能课程单元。它特别棒。

数据分类和归一,都是为了有一个好的模仿对象

(DT君小课堂:接下来作者就要对数据做分类了。分类是数据挖掘领域中一项非常重要的任务。自然语言处理NLP中,一般的模式分类方法都可用于文本分类研究。常用的分类算法包括:决策树分类法,朴素的贝叶斯分类算法、基于支持向量机(SVM)的分类器,神经网络法,k-最近邻法(k-nearest neighbor,kNN),模糊分类法等等。)

我决定使用scikit机器学习库。它使用和配置起来都特别简单。Scikit有着庞大的社区,里面包含了大量的教程和许多可以用来训练你的神经网络的样本数据集(example datasets)。我并没有使用原有的样本数据集,我想把无序的文本转变成归一化的训练数据。我创建的这个“写手”使用了多重支持向量机(SVM)的分类器,一个向量机(vector machine)用作句子结构化,多个小型向量机用于对应从词汇表中选取单词算法。

(DT君小课堂:支持向量机(SVM)通俗来讲是一种二类分类模型,其学习策略便是间隔最大化,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。)

我目前使用的算法能有精准的结果,这使得句式结构化非常成功。这个阶段中最大的障碍就是将训练数据归一化(normals)

(DT君小课堂:归一化,简单的讲就是由于数据单位不一致,所以需要将不同的数据进行格式化,使之在指定的范围内,比如在0-1之间。归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。举个栗子:一张表有两个变量,一个是体重kg,一个是身高cm。假设一般情况下体重这个变量均值为60kg,身高均值为170cm。这两个变量同样是100,对于身高来说很矮,但对于体重来说已经很大了。所以归一化就是要解决这个问题,目的是可以用数值直接来进行比较。)

我使用了NLTK(Natural Language Toolkit自然语言工具包)的库来先将训练数据转化成词性标注,例如:NN(名词),DET(限定词),$(符号)等等。(然后再将其归一化)

(DT君小课堂:为什么要用NLTK?从计算机处理的角度来看,英语或任何自然语言(口语或普通的语言)都是极不规范和不准确的,需要对它们进行整理。NLTK还提供了一些 “词干分析器” 类,以便进一步规范化单词。)

利用这些标签,我可以对数据进行归一化,像下面这样:

["The","cat","jumped"]= ['DET','NN','VP]

一旦归一化以后就像下面这样:

['DET','NN','VP]= [0.2237823,0.82392,0.342323]

现在我只需要得到一个目标归一化后的值(target normal),并且将它代入神经网络中开始训练即可。从二进制大对象(BLOB,binary large object)中读取文本时,同时训练推测下一个顺序词是什么。(when reading from a blob of text, the training word is simply the next word in the blob),因此:

["The","cat","jumped"]["towards"]= ['DET','NN','VP]["PRP"]= [0.2237823,0.82392,0.342323][0.12121212]

接下来要做的是获取大量 J.K Rowling《Harry Potter》的资源并且准备开始模仿她的句式结构。

努力提高词汇量,这样才能“喂饱”我的“写手”

词汇无疑是本项目中最难的部分,我很清楚地知道没有理由不使用递归神经网络,预测每个字母也是更好的办法。然而,我选择的方法产生非常酷炫的结果。(DT君翻白眼地注:作者迷之微笑了……)

词汇以词序矩阵的形式包含在训练用的 BLOB 文件中。每个词分解成了词性标注接着进行归一化。归一化后的值和词汇依然被备份着,因为稍后将归一化的值转换回单词依然要利用此作为映射表。词汇看起来像这样:

[[(cat,[0.232342]),(bat,[0.2553535]),(dog,[0.345454]),(horse,[0.4544646])...]

[(run,[0.12131],(jump,0.232323),(fall,0.43443434)...]

...

]

1.我们先使用小型文本HarryPotter(small).txt

这个数据集包含了346个训练向量(training vectors),是一个最小的训练集

(DT君小课堂:机器学习是学习一些数据集的特征属性并将其应用于新的数据。这就是为什么在机器学习用来评估算法时,一般把手中的数据分成两部分。一部分我们称之为训练集,用以学习数据的特征属性。一部分我们称之为测试集,用以检验学习到的特征属性。)

Input(输入):"Harry dont look"(哈利不要看)

Output(输出):"Harry dont look had at eleven for witches had been for eleven then with nothing had been for eleven then with nothing had been for eleven then with nothing had been for eleven "(哈利不要看,11,女巫,11,没有事情,11,……)

Input(输入):"Wizards sometimes do"(巫师有时候会做)

Output(输出):"wizards sometimes do , Harry had been been , Harry had been been , Harry had been been , Harry had been been , Harry had been been , Harry had been been "(巫师有时候会做,哈利已经在,哈利已经在,哈利已经在,哈利已经在,哈利已经在,哈利已经在)

你可以看出神经网络很努力想要学习却缺乏训练数据。它几乎就陷入无限循环中了。

哈利波特的咒语和中文读法大全(如何用神经网络写出哈利)(2)

2.我们接下来开始使用中型文本HarryPotter(medium).txt。

数据集包含了2500个训练向量。

Input(输入):"Harry don't look"(哈利不要看)

Output(输出):"Harry don't look , incredibly that a year for been parents in . followers , Harry , and Potter was been curse . Harry was up a year , Harry was been curse "(哈利不要看,难以置信地有一年父母在。花朵,哈利,波特都被诅咒。哈利长大了,哈利被诅咒)

Input(输入):"Wizards sometimes do"(巫师有时候会做)

Output(输出):"wizards sometimes do parents."(巫师有时候会对父母做)

现在你可以看出神经网络的输出,已经生成了我们预想的结果。因为增加了训练数据,它的性能得到了大幅度提升。

3.使用大型文本HarryPotter(large).txt,数据集包含了4550个训练向量。

Input(输入):"Harry don't look"(哈利不要看)

Output(输出):"Harry don't look Petunia Harry , incredibly had on the address."(哈利不要看佩妮哈利,有地址)

现在,除了一个错误的停顿应该在Petunia(佩妮)与Harry(哈利)之间,这个句子简直完美。

不过,在这里,训练数据的增加反而给了一个负面的结果。这是罕见的。

Output(输出):"Wizards sometimes do the address on the address on the address."

4.接下来,要使用另一个和哈利波特无关的大型文本MacbookAirBlog(large).txt了。

我随机在一个博客上抓取了一份(与哈利波特无关的)文本。出乎意料的是这个数据集通常能产生更精确的结果。数据集中包含了3576个训练向量。

Input(输入):"Harry don't look"(哈利不要看)

Output(输出):"Harry don't look , also of a scaling on playing . Use for Control weight goes so cable and they've of placed it . you do to want things at at 2015."(哈利不要看,比例玩起来。控制作用体重所以有线和他们放在这里。2015年你的确需要东西。)(DT君OS:真心是什么鬼啊……)

Input(输入):"Wizards sometimes do"(巫师有时候会做)

Output(输出):"Wizards sometimes do When ports a scaling the have object , also of a scaling on playing ."(当港口有货,巫术有时候会做,比例玩起来)

句式结构是正确的,但词汇有限。别急,10,000以上训练向量的数据集马上要来了

哈利波特的咒语和中文读法大全(如何用神经网络写出哈利)(3)

预测和测试:“写手”不仅可以模仿利波特哦

(DT君亲测:这一段你只需要看最后几句测试结论……)

当我们试着对下一个顺序的词进行预测时,程序生成了非常准确的结果。但是当大量序列开始生成后,准确率就下降了。我创建了一个测试单元用来比较生成的下一个词与 J.K Rowling 实际创作中的词。

我得到了下面的结果:

哈利波特的咒语和中文读法大全(如何用神经网络写出哈利)(4)

通过命令行,你可以看到:

python3 main.py -utss -td "Datasets/MacbookAirBlog(large).txt"

我用同样的想法测试了词汇表:

哈利波特的咒语和中文读法大全(如何用神经网络写出哈利)(5)

哈利波特的咒语和中文读法大全(如何用神经网络写出哈利)(6)

哈利波特的咒语和中文读法大全(如何用神经网络写出哈利)(7)

python3 main.py -utv -td "Datasets/MacbookAirBlog(large).txt"

如果预估超过80%就会被归为“通过(passed)”。

以上所有的结果都来自于“未完结”的程序,这也就是为什么它们看起来并没有那么准确。

哈利波特的数据集就来自于电子书,当然你也可以用其他数据集。它是非常容易添加数据集,只要确保他是BLOB的格式。

作者注:本实验只应用于教育,永不用于商业化。

数据侠门派

本文改编自:

数据侠:Jacob Plaster,University of Hull;原文出处:《Artificial machine learning writer》

本文同时参考了伯乐在线的翻译:《我实现了一个人工机器学习写作器》

(DT君注:DT君直接联系到作者本文,本文的编译已经得到对方授权。需要转载请直接联系我们。)

数据侠联盟

你想要成为能够上天入地的数据侠吗?赶快加入“数据侠联盟”吧!

请联系“数据侠”计划负责人沈念祖shennianzu@dtcj.com。

哈利波特的咒语和中文读法大全(如何用神经网络写出哈利)(8)

(了解更多有趣又有料的商业数据分析,欢迎关注DT财经微信公众号“DTcaijing”,下载“DT·一财”APP)

,