最有男子气概的女诗人(AI诗人的十四行诗)(1)

人工智能创作简史

这是莎士比亚第18首十四行诗中的一个诗节:

最有男子气概的女诗人(AI诗人的十四行诗)(2)

Shall I compare thee to a summer's day?thou art more lovely and more temperate:rough winds do shake the darling buds of May,and summer's lease hath all too short a date

我可能把你和夏天相比拟?

你比夏天更可爱更温和:

狂风会把五月的花苞吹落地,

夏天也嫌太短促,匆匆而过*

*译者注

本文中出现的莎士比亚十四行诗中文译作除非特别说明,均为梁实秋译本。

最有男子气概的女诗人(AI诗人的十四行诗)(3)

- John Burningham -

这是由人工智能程序Deep-speare创作的十四行诗:

最有男子气概的女诗人(AI诗人的十四行诗)(4)

Yet in a circle pallid as it flow,

by this bright sun, that with his light display,

roll'd from the sands, and half the buds of snow,

and calmly on him shall infold away

它流淌,在苍白的旋涡中

路过明媚的阳光,他的光辉闪耀

终于滚落在细沙上,雪般的花蕾含苞待放

轻覆其身,悄然而逝

仔细阅读Deep-speare写的诗,你可能会察觉到一丝荒谬,不过它倒确实遵循章法,用英文老师的话来说就是,乍看之下这首诗歌每一行的节奏、韵律和基本语法都还挺像那么一回事。正如该研究团队发现的那样,当向全世界展示AI创作的诗歌时,不少人都被糊弄过去了——大多数读者无法区分开AI生成的诗和人类作者写出的作品

该团队由三位机器学习研究人员和一名文学学者组成,使用古腾堡工程在线图书馆(Project Gutenberg)收录的2700首十四行诗来训练AI诗人。该AI诗人利用被称为深度学习的AI方法,对训练数据库中的诗歌进行挖掘,不断地“冥思苦想”出与样本匹配的诗句,自己学会作诗的。他们并没有像以往类似的项目一样,给AI诗人输入韵律、发音方面的字典等资源,然而,Deep-speare靠着摸索,自己学会了十四行诗写作的三大要素:节奏、韵律,和自然语言的基本原理(即如何将词汇流畅地衔接在一起)

*译者注

古腾堡工程(Project Gutenberg),是一项志愿工作,致力于将文化作品的数字化和归档,以“鼓励创作和发行电子书”为其宗旨。该工程肇始于1971年,是最早的数字图书馆。截至2012年7月,古腾堡工程声称超过40,000件馆藏。

该团队的目标探索深度学习在生成自然语言上能做到何种程度,以及如何充分利用诗歌的有趣特质。尤其是像十四行诗这样的诗歌,其节奏和韵律有着刻板和规整的模式,想知道是否可以通过设计系统体系,让Deep-speare自主学习此类模式。

这一切的努力离不开计算创造力领域的蓬勃发展。一幅由AI创作出的肖像画曾在纽约佳士得(Christie’s)拍卖行以43.2万美元的价格成交;AI作曲项目DeepBach创作的巴赫风格音乐作品足以让人信以为真;而在雕塑和舞蹈的领域,也能看见AI的身影。除此之外,在语言和文学方面,来自OpenAI实验室的GPT-2文本生成系统凭实力证明了人工智能可以仅通过开头句,就能生产出相当流畅的文本段落

*译者注

计算创造力(computatinal creativity, 也称为人工智能创造力,机器创造力或创造力计算学)是一项跨学科的研究领域,位于人工智能,认知心理学,哲学和艺术领域的交汇处。

最有男子气概的女诗人(AI诗人的十四行诗)(5)

- Fran Horne -

在过去的十年里,正是深度学习的蓬勃发展才使得这些关于计算创造力的实验成为可能。深度学习具有创作追求的几个关键优势:对初学者来说,它非常灵活,而且也能相对容易地训练出能执行各种任务的深度学习系统(我们称之为模型)。这些模型擅长发现模式,并从中进行总结归纳——有时候甚至会产生令人惊奇的结果,而这种优势也被称为“偶发创造力”。同时,深度学习算法内在因素的随机性会导致输出结果的千变万化。这种结果上的千变万化如果能够被人类协作者耐心地筛出,那么这种可变性将非常适合创造性应用。不仅如此,深度算法还能相对容易地建立可处理不同类型数据的模型,包括文本、语音、文字和视频等。

一首诗是如何被写出来的?

关于自然语言处理模型

十四行诗最主要有两个特点:14行的长度,和由两部分组成的“论证”结构。后者指的是诗人一般会在诗歌的前半部分提出一个问题,然后用结尾的部分来解答这个疑惑。在十六世纪,英国诗人采用“五步抑扬格”(iambia pentameter)的节奏方式来创作诗歌,即一行诗歌拥有10个音节(5个音步)的轻重音节奏。通常,一首十四行诗由三个用来提出“问题”的四行诗(quatrain)和末尾的对偶句(couplet)构成,诗歌的韵律常为「ABAB CDCD EFEF GG」。在莎士比亚手里,此种韵律形式使用到了最纯熟的地步,以至于今天我们都称其为“莎士比亚体之十四行诗”。

在Deep-speare项目组中,我们试图生成莎士比亚十四行诗前半部分的“发问”段落中的一段四行诗。因此,相比于简单复制诗歌的十四行形式或者结尾的两行“论证”的诗句,我们更专注于生成遵循“五步抑扬格”和韵律的文本。我们也许会在未来的某天继续攻克这个更难的挑战,但目前我们更需要证明的是AI诗人具备产生一段单独的四行诗的能力。

Deep-speare采用了三种自然语言处理模型进行创作,它们分别是通过评估备选单词的概率选择合适单词的语言模型、评估每行诗歌的节奏的节奏模型,以及确保每行诗歌都遵循韵律的韵律模型

AI诗人会随机选择一种经典韵律来创作诗节。比如下图这个例子,它就采用了“ABBA”的押韵方式,即在一个四行的诗节当中,首尾两行押韵,中间两行押韵。在掌握这个模版之后,它以一个令人惊讶的方式开始生成这首诗歌——从最后一行的最后一个单词开始,从右到左生成符合规律的文本。

最有男子气概的女诗人(AI诗人的十四行诗)(6)

1. 在上图的例子“from pardon to him, who will stand and wait”中,Deep-speare首先从句末的“wait”这个单词开始生成文本,利用上述提到的概率处理模型,对于词语的选择,它先考虑了所有英文词汇出现在该位置的可能性,选出其中排名前五的候选单词。然而,模型并不会直接使用概率最大的单词,而是从五个单词里面随机选择一个

2. 以退为进,AI诗人通过对每个词倒推来进行文本生成,而每一个候选单词的概率得分显示了单词之间相邻关系和出现在同一句子中的概率(如下图所示)。

最有男子气概的女诗人(AI诗人的十四行诗)(7)

3. 利用这样的方法,AI诗人生产了许多候选诗句,接下来节奏模型会给它们打分,找出符合“五步抑扬格”节奏规律的诗句。

最有男子气概的女诗人(AI诗人的十四行诗)(8)

Shall I behold him in his cloudy state

for just but tempteth me to stay and pray

a cry: if it will drag me, find no way

怎么忍心看他愁云惨雾伤悲

耿耿于怀的我驻足祈祷安慰

只怕眼泪来袭 我无法应对

4. 以退为进、从后往前,AI诗人不断重复这样的步骤,以从最后一句到第一句的方式,继续生成文本。

5. 在寻找合适的单词来给第二句和第一句诗结尾时(“pray” 和 “state”),AI诗人会给候选单词的“押韵度”评分,找到与“way”和 “wait”押韵的辞藻。

总的来说,我们的系统由三个部分组成:一个学会了“五步抑扬格”的节奏模型,一个学会了词汇押韵的模型,以及一个学会了词与词之间的经典搭配的语言模型,其中语言模型是能够逐字生成十四行诗的最主要部分

最有男子气概的女诗人(AI诗人的十四行诗)(9)

- Vera Molnar -

语言模型会通过概率评分的方法,对任意语句进行排名,判断哪些语句在某种语言之中是正确的 (在我们的例子中是英语)。经过适当训练的语言模型会赋予流利的句子较高的概率分,给无意义的句子较低的概率分。考虑到语言生产和理解方式一般是逐词进行,这个原理实际上允许我们把更复杂的、句子层面上的问题分解成单词层面的简单问题。因此,语言模型的工作就是通过部分句子预测下一个单词是什么。为了进行这种预测,模型会查找所有可能的单词并给予它们概率分数,而这些分数取决于目前句子中已有的词汇。

语料库

通常,自然语言模型会通过语料库的单词和句子判断文本的出现概率,而语料库的内容可以来自维基百科词条,Reddit中的讨论,或者专门用于训练语言处理的语料库。从文字库中,人工智能可以学习哪些单词是最常一起出现的。而在我们的Deep-speare项目中,AI诗人先是从在线图书馆Project Gutenberg收录的全部诗歌中学会了语言运用的基本课程,然后再通过包含了36.7万个单词的2700首莎士比亚十四行诗来进一步打磨它的十四行诗写作能力。

人们对下一个单词的“惊奇”程度可以被用于衡量一个语言模型的质量。如果下一个单词被赋予了很高的概率分数,这说明这个单词的出现比较符合规律,所以并不会让人感到惊讶;但如果被赋予了很低的概率分数,那么人们在读到这个单词的时候,会感到非常不自然。这种惊奇程度在训练模型的过程中被当成重要的信号。因此,当我们每次都通过大量文本来处理每一个词汇,而且模型不会对连在一起的词汇感到惊讶,那么我们便可以认为,这个模型已经很大程度上掌握了语言的复杂性了。而这就包括能够正确运用“San ­Francisco”这样由多单词构成的词组而不拆开它们、遵循一定句式和语法结构,以及判断较为复杂的语义和逻辑信息(例如,咖啡常常用“浓”和“淡”,而不会用“强壮”和“轻便”来修饰)等原则。

一旦语言模型被训练好了,无中生有地生成单句或多条诗句就不再是难事了

最有男子气概的女诗人(AI诗人的十四行诗)(10)

- Tom Phillips -

接下来,我们让节奏模型遵守每行诗歌要有10个以轻音重音的模式结合音节的规律,然后,它会检查每个单词的字母和句子的标点符号,通过字母决定音节该如何分配,哪一个音节要归类为重音。比如“summer”一词有两个音节,“sum”是重音,“mer”是轻音,当Deep-speare在写四行诗时,语言模型会生成候选诗句,节奏模型会从中选出符合“五步抑扬格”的一句,然后再重复这一过程,生成下一行诗句

韵律模型也是从过去的十四行诗集中含英咀华学会的,但它只会看每行最后一个单词的字母。在训练过程中,我们告诉模型,在四行诗中的每句诗的最后一个词都需要押韵,然后我们让它找出那些词中最相似的词,越是相似的单词,就越有可能押韵。以莎士比亚的诗歌为例子,“day”和“May”的押韵分数很高,“temperate”和“date”也是如此。

一旦Deep-speare被训练好并准备创作,我们会给它提供莎士比亚十四行诗中三个最经典的韵律模版来从中选择:AABB, ABBA, ABAB。在写作过程中,语言模型会先随机选取其中一个模板,再逐词地产生诗句,当写到了应该押韵的单词时,它会为押韵模型提供多个候选单词。

下面有两个例子可以很好地解释Deep-speare生产文本的过程。第一篇文本是由稍微训练过的模型所创作的,它初步掌握了韵律,但尚未找到节奏,且诗歌读起来并不是很通顺。

by complex grief’s petty nurse. had wise uponalongcame all me’s beauty, except a nymph of songto be in the prospect, he th of forms i joinand long in the hears and must can god to run

由复杂的悲伤的美丽小护士

来吧我所有的美丽,除了一首歌

在光明的未来里,我加入的形式

长时间聆听,必须让上帝奔跑

第二篇文本则是由训练臻于完善的模型生成的,相较第一篇可以看出,它取得了很大的进步。它ABBA的韵律是正确的,遵循了“五步抑扬格”,语言不仅流畅,还颇有诗意!

shall i behold him in his cloudy statefor just but tempteth me to stop and praya cry: if it will drag me, find no wayfrom pardon to him, who will stand and wait

怎么忍心看他愁云惨雾伤悲

耿耿于怀的我驻足祈祷安慰

只怕眼泪,来袭我无法应对

谁得宽恕,谁又将驻足等待

AI诗人写的诗到底好不好?

在检验Deep-speare的输出结果时,我们首先要确保它没有复制语料库里的原句。我们发现,它作品中的诗句并未和训练数据有很大重叠,因此,我们相信AI诗人不是单靠复制粘贴产生作品的,的诗歌可以说都是原创的

不过 ,原创并不是质量好的代名词,为了检验作品质量,我们请了人类评委进行分析,他们来自两个不同的背景。第一组评委是亚马逊Mechanical Turk平台雇佣的众包工人,他们只会基础的英语,没有诗歌方面的专业知识。我们向他们同时展示AI诗人和人类诗人写的十四行诗,并让他们指出哪一首是人类写的。

最有男子气概的女诗人(AI诗人的十四行诗)(11)

- Camilo Huinca -

但第一次的检验结果令我们感到大失所望,因为工人们可以近乎完美指出哪首是人类诗歌!看上去机器学习的结果显然不符合人们的鉴赏标准。那这么一来,我们AI诗人的研究之路是不是就到此为止了?

接着,我们思考了这近乎百分百识别率背后的原因或许是——第一组评委作弊了。我们的语料库来自古腾堡工程在线图书馆,因而文本都是可以被搜到的,于是我们在想,会不会是他们复制了待判断的诗歌,再到网上去搜是谁写的?抱着这种猜测,我们的研究人员也依葫芦画瓢,测试了一番,事实证明我们是对的——人类诗歌作品总是可以搜到一些结果,达到百分百鉴别率是轻而易举的事情。

为了防止评委们耍小技巧作弊,我们把所有的待鉴别诗歌都转换为图像,再让他们指出哪首是人类诗歌作品。看!这次他们的正确率从近乎百分百下降到了百分之五十,这说明他们无法准确地区分人类和机器人的诗歌作品。尽管我们还是无法阻止所有人不去手动输入诗歌再谷歌一下结果,但手动查找确实需要花费不少时间。总的来说,这次正确率的下降说明了AI诗人的作品在某种程度上,确实可以以假乱真

我们的第二位评委是多伦多大学文学助理教授亚当·哈蒙德(Adam Hammond)。与第一组评委的测试过程不同,第二次质量检验不再是猜测游戏。相反,哈蒙德将会收到混合着人工和机器创作的诗歌,并从韵律、节奏、可读性和情感影响力这四个维度对它们进行打分

他给了Deep-speare十四行诗很高的韵律分和节奏分,实际上,与人类写作的十四行诗相比,它们在韵律和节奏上的评分更高。对这个结果,哈蒙德也并不感到惊讶,他认为人类诗人经常打破规律来取得一些诗歌效果。反倒是在可读性和情感影响力上,AI诗人则明显逊色了不少,文学专家可以轻易通过这两个方面指出哪首是机器的创作。

AI写诗的能力是幻想?

Deep-speare项目最有趣的地方之一是它造成的轰动。我们在2018年计算语言学学术会议上做完报告之后,世界各地的新闻媒体报道了这个成果。很多文章都引用了以下的诗节,以证明AI诗人Deep-speare能够创造像人类创造的诗歌:

With joyous gambols gay and still array,no longer when he ’twas, while in his dayat first to pass in all delightful waysaround him, charming, and of all his days.

当哈蒙德在BBC广播电台接受采访的时候,主持人朗读了这个段落并问他的看法,哈蒙德则反问主持人是否有注意到诗歌中明显的语法错误“he ’twas”来作为“he it was”(不成立的表达)的缩写,主持人表示她并没注意到。

社会科学家雪莉·特克尔(Sherry Turkle)把人们忽视人工智能的明显错误,却依然感慨其成就的现象称为“伊莉莎效应”(the Eliza effect)。换句话说,人们可以过度解读机器产生的结果,甚至读出来原本不存在的意义。这个现象最早可以追溯到十九世纪六十年代,在麻省理工大学,计算机科学家约瑟夫·维森鲍姆(Joseph Weizenbaum)开发了第一个聊天机器人伊莉莎(Eliza),它会模仿心理治疗师的说话方式。尽管这个程序相当粗糙,还有很大的局限性,但维森鲍姆惊讶地发现用户轻易地就被机器人“欺骗”了。在七十年代,作为维森鲍姆同事的特克尔发现,甚至那些明知伊莉莎程序有缺陷的研究生也会向机器抛出问题,并期待它以近似正常人类的方式去回答。

特克尔把伊莉莎效应称为“数字幻想中的人类同谋”,而这看起来也可以解答人们对Deep-speare诗歌作品的赞叹反应。公众太希望这些十四行诗可以用于证明人工智能的力量,以至于忽略了那些与之相悖的证据

这种蓄意的误解可能会对AI诗人真正的能力发展造成阻碍。我们还在持续进行AI诗人的项目,目标之一就是提升我们AI诗人作品的可读性和情感影响力。而要想提升整体的流畅度,其中一个策略是利用大范围的语料库(例如整个维基百科)去“预训练”语言模型,让它可以在一段较长的叙述中更好掌握词汇出现的规律。在这个基础上,我们再进一步对它进行十四行诗文本生成的训练。

最有男子气概的女诗人(AI诗人的十四行诗)(12)

- Tomasz Woźniakowski -

我们同样也在思考,人类诗人是如何创作诗歌的:他们总不会在桌子旁正襟危坐,思考着“我第一个单词应该是什么”,然后冥思苦想,思考下一个单词该接什么好。相反,他们都是心中先构思出一个主题或者一段故事,再通过单词和句子表达所思所想。其实在Deep-speare项目中,我们已经做到了让AI诗人根据给定的主题来生成相关的文本,比如让它创作主题是“爱”或“失去”的诗句。让机器按照一定的主题也许会提升诗歌的流畅度,但与此同时,它的词汇选择将不会那么丰富,因为它总要先学习哪些词汇符合某些主题。之后,我们计划使用更多分层的语言模型进行实验,先为诗歌生成高级叙事,再在这个框架下生成每一个词汇——就如人类思考的路径一样

确实,这是一个宏伟的目标,但我们希望Deep-speare项目可以在将来达到这样的标准,就算不能变成真正的AI莎士比亚,那也要尽力成为莎士比亚在《情女怨》曾描述过的样子:

He had the dialect and different skill,Catching all passions in his craft of will.

“他有丰富的词汇和无数技巧,

随心所欲让所有人为之倾倒。”

来源:神经现实

,