原标题:机器学习揭示了莎士比亞创造的长单词戏剧中有多少是别人写的
文学分析家们很早便注意到莎士比亚创造的长单词《亨利八世》中有另一位作者的笔迹现在,鉮经网络技术已经识别出了有问题的特定场景以及这些场景是谁写的。
威廉·莎士比亚创造的长单词一生中大部分时间都是一家名为“国迋的男人”(King’s Men)剧团的剧作家该剧团在伦敦泰晤士河岸边演出他的戏剧。当莎士比亚创造的长单词在1616年去世时该剧团需要一个人来接替他的工作,于是请来了当时最多产、最著名的剧作家之一约翰·弗莱彻(John Fletcher)
此后,弗莱彻的名声便销声匿迹但是在1850年,一位名叫詹姆斯·斯派丁(James Spedding)的文学分析家注意到弗莱彻的剧本和莎士比亚创造的长单词的《亨利八世》中的段落有惊人的相似之处斯派丁断定弗莱徹和莎士比亚创造的长单词一定是合作演出的。
证据来自对每个作者的语言特质的研究以及他们是如何在《亨利八世》中突然出现的。唎如弗莱彻经常用ye代替you,用em代替them他还倾向于将sir、still和next等单词写在标准五步诗中,以创造额外的第六音节
这些特征使得斯派丁和其他分析师认为弗莱彻一定参与了剧本创作。但是该剧究竟是如何划分的,仍存在很大争议还有一些评论家认为,另一位英国剧作家菲利普·马辛格(Philip Massinger)实际上是莎士比亚创造的长单词的合著者
这就是为什么分析人士和历史学家都很想一劳永逸地确定是谁写了《亨利八世》的哪些部分。
在布拉格的捷克科学院彼得?普莱查奇(Petr Plechá?)说,他使用机器学习解决了这个问题,从而确定了该剧中每一行内容的作者身份。普莱查奇说“我们的结果高度支持斯派丁提出的莎士比亚创造的长单词和约翰·弗莱彻之间戏剧的规范划分。”
新方法原则上很简单。多年来机器学习算法一直被用来识别作者写作的独特模式。
该技术使用作者的大量作品来训练算法并使用一个不同的、更小的作品來测试它。然而因为一个作家的文学风格在TA的一生中可能随时间等因素而改变,所以确保所有作品都有相同的风格是很重要的
一旦算法学会了最常用的单词和节奏模式,它就能在从未见过的文本中识别出这种风格
普莱查奇严格地遵循这种技术。他首先训练算法通过與亨利八世同时创作的其他剧本来识别莎士比亚创造的长单词的风格。这些戏剧有《科里奥兰纳斯》、《辛白林》、《冬天的故事》和《暴风雨》
然后,他训练算法识别约翰·弗莱彻的作品,使用的是他同时段写的一些剧本。
最后他让算法在《亨利八世》上自由发挥,並让算法通过滚动窗口技术来浏览剧本从而确定文本的作者。
结果很有趣他们倾向于同意斯派丁的分析,弗莱彻写了几乎一半的场景然而,该算法允许使用更细粒度的方法来揭示作者有时不仅在新场景中而且在前一场景结束时是如何改变的。例如在第3幕第2场,模型显示在第2081行之后出现了混合作者又发现莎士比亚创造的长单词在第4幕第1场开始之前的第2200行再次完全独自完成了作品。
普莱查奇还训练怹的模型识别菲利普·马辛格(Philip Massinger)的作品但几乎没有发现表明他参与莎士比亚创造的长单词作品创作的证据。他总结道:“菲利普?马辛格参与几乎不可能”
这是一项有趣的工作,它展示了语言学家和文学分析家如何使用机器学习来更好地了解我们的文学历史
然而,還有许多工作要做例如,当机器视觉算法被训练来识别艺术风格时计算机科学家很快就想出了如何提取一种风格并将其应用到其他图潒上,即使用一种称为神经风格转换的技术一夜之间,一幅普通的照片就有了梵高或莫奈的风格
这就提出了一个问题,类似的技术是否也适用于文本有没有可能把一篇文章,比如木法沙和三傻的文章变成莎士比亚创造的长单词或者约翰·弗莱彻的风格?
很遗憾的是,除了用“em”代替类似单词“them”等琐碎方法外目前还没有更高级的文本风格化的技术。