人工智能是如何创作的创作的音乐在哪里可以听啊?

【导读】这一次著作权面对的對手不再是机械时代的无限复制,而是大数据和人工智能是如何创作的时代的无限创作它直接绕过了著作权法,抹杀了创作与复制的成夲差别使(达到著作权法标准的)创作变成滔滔不绝、永不干涸、予取予求的活水。这是从手工生产到工业生产再到数据和人工智能是洳何创作的生产的不可避免的革命

上面这句,不是骂人我说的是人工智能是如何创作的。这还真不算新闻近日,位于纽约的安培音樂公司(Amper Music)获得 400 万美元融资吸引了不少眼球。其实该公司早在 2014 年成立提供集作曲、表演和制作于一身,即时为用户度身定制个性音乐嘚人工智能是如何创作的服务用户只需输入情绪 / 气氛、长度和类型的要求,网站即可生成对应的原创音乐效果怎样?还不赖读者可鉯自己上网感受。更早的一家叫点乐台(Jukedeck)在 2012 年由剑桥大学基金支持创立,于 2015 年底获得新一轮融资通过训练深层神经网络实现人工智能是如何创作的作曲。类似地只要输入情绪 / 气氛、长度、风格和节拍,点乐台马上生成原创音乐价格公道,不满意包换还有成立于 2016 姩的爱娃,专事古典音乐创作为影视、广告和游戏配乐。

一切都是版权惹的祸安培音乐的创始人西尔弗斯坦(Drew Silverstein)原先是为好莱坞公司垺务的作曲人。由于音乐版税过于昂贵人的创作速度又远远落后于视频对音乐的需求,他萌生了让电脑创作类型音乐的想法

在剑桥大學攻读音乐的雷克斯(Ed Rex)前往哈佛大学看望女友,顺道旁听了一场计算机讲座由此开启了二次元人生。说干就干他捋起袖子学习编程,拉上好友斯托布斯一起创建了点乐台" 好不容易在音频图书馆中为你的视频找到合适的音轨,你却要为短短三分钟的音乐支付三十美元" 更不用说还得费时费力去剪辑。雷克斯和史托布从中看到了不合理也看到了机会。

被著作权逼上梁山的故事多了上世纪 30 年代,美国莋曲家、作家与出版商协会(ASCAP)要求所有电台不论播放多少音乐一律支付每年广告总收入的百分之三至五作为版税1940 年始,ASCAP 又大幅提高税率不再妥协的全美广播事业者联盟(NAB)成立了自己的音乐版权机构——美国广播音乐公司(BMI),吸引非主流音乐人签约大量收购独立喑乐的版权和许可即将到期的版权,成就了蓝调、爵士、节奏蓝调、福音、乡村等新音乐类型的流行眼下,在音乐版权混战中处于下风嘚网易云音乐积极推出扶持独立音乐人的 " 石头计划 "堪称这段美国往事的隔世回响。只是做大后的新势力总是一次又一次地被著作权成功招安然而这一次,著作权面对的对手不再是机械时代的无限复制而是大数据和人工智能是如何创作的时代的无限创作。它直接绕过了著作权法抹杀了创作与复制的成本差别,使(达到著作权法标准的)创作变成滔滔不绝、永不干涸、予取予求的活水这是从手工生产箌工业生产再到数据和人工智能是如何创作的生产的不可避免的革命。

如今是视频爆炸的时代" 在过去三年的每一分钟里,上传到‘油管’(YouTube)的视频长达三百小时" 您随手点开网页,字里行间视频超链接会不时地跳出来。大中小学的课堂上不来点多媒体那像话吗?多數人依然热爱经典名著但热爱的是影视版。苏力老师曾感慨今天的法律与文学研究的最大麻烦是 " 阅读有点奢侈,精读太贵族 "姜文老師则感慨,跟今天散发着 " 与生俱来的镜头熟练感 " 的年轻人比他这一代导演不少是用影像说话的结巴。文字的衰落已成定局可话说回来,我们的远祖没有文字天天见面,有说有唱也能把意思表达清楚我们不过返祖变回了视觉动物。而视频制作怎少得了音乐这是需求側爆发的革命,是雷克斯和斯托布斯眼中的 " 近乎无限的市场 "使用已有音乐?要么侵权要么掏大钱。使用原创音乐人的创作速度根本無法跟上需求端的革命。然而人工智能是如何创作的(及与人合作)作曲带来了新的出路安培音乐和点乐台们手把红旗,正站在人工智能是如何创作的染指音乐创作(及一切文艺创作)的潮头上在这股大潮里,谷歌利用人工智能是如何创作的谱写了钢琴曲索尼模仿披頭士和老巴赫的风格创作出新乐曲,百度开发了 " 看图作曲 " 的黑科技看视频作曲估计也为时不远了。听说一位美国高中生利用开源神经网絡让个人智能写起说唱歌词人工智能是如何创作的创作的音乐正在逐步满足商业广告、影视剧和个人视频的多数要求。这是供给侧发生嘚革命

这场革命业已发生在音乐创作的方方面面。从作曲编曲、录音混音、MIDI 制作到各种乐器声音及人声合成各款软件乱花迷眼,大大降低了音乐创作和制作的成本丰富了各种可能性。今天的作曲家不再像海顿和莫扎特那样需要一支管弦乐队他们可以通过电脑进行各種声音试验。在一款智能软件 Realviolin 的协助下完成同样创作的时间从十分钟降至一分钟。风靡一时的歌曲《心碎》(Not Easy)是格莱美获奖制作人杰德(Alex da Kid)和 IBM 的沃森(Watson)人工智能是如何创作的系统合作完成的为了确定主题,沃森系统运用自然语言分析算法分析过去五年内的诺贝尔和岼奖演讲、《纽约时报》头条、美国最高法院的裁判、维基百科文章和热门电影梗概等等运用情绪分析算法分析社交媒体的内容和 Billboard 排行榜中超过 26000 首歌曲的旋律和歌词;音乐生成算法负责分析音符中的理论、结构和情感表达,协助作曲颜色分析算法则协助设计专辑的封面對于人工智能是如何创作的而言,人性是可数据化的正如我们从人类的视角观察和分析动物行为一样。

" 巧妇难为无米之炊 "在大数据和囚工智能是如何创作的时代,人工智能是如何创作的就是巧妇大数据就是米。人工智能是如何创作的的提高需要大量优质的数据进行深喥学习增加用户数量和提高用户参与度是获取(盗取不论)数据的前提。数据越多越优人工智能是如何创作的改进越快,产品 / 服务体驗也越佳;产品 / 服务体验越佳用户数量和参与度随之见长,所获数据越多越优依此循环不息。数据作为生产要素在社会生产中日益显偠就此而言,用户不但是消费者同时也是生产者,是产品和服务提供者的员工激励用户获取、上传、评论、交流就是激励员工生产。因此国内外的数字音乐平台无不致力于人工智能是如何创作的的开发来改善产品和服务,同时获取更多数据作为用户的我们无力也無需深入分析其中的专业性问题,只要稍微留意一下越来越走心的个性化服务(如个人电台、推荐歌单和好友)即可感受到人工智能是如哬创作的的威力在获得初步成功之后,人工智能是如何创作的必定更全面地介入音乐的创作和传播事无巨细地干涉人的音乐创作和欣賞。据闻日本正在开发人工智能是如何创作的耳机用传感器检测脑电波并识别脑电图,从而追踪用户的情感状态为用户定制个性音乐。可畏的是音乐只是大数据和人工智能是如何创作的应用的巨大拼图上的一小块而已。数据攫取的触手不会放过我们私人生活的每一寸涳间

面对这场革命,著作权法怎么办实话说,不知道因为我们并不十分清楚人工智能是如何创作的在未来会如何演变。但不待法律讀懂人工智能是如何创作的后者已经介入法律了。据报道很多 YouTube 用户通过反转或改变颜色、改变图像及纵横比、裁剪框架、添加光晕、妀变音程音频和反向储存音轨来逃避版权识别。YouTube 正积极利用人工智能是如何创作的成果训练 Content ID 系统更快速、准确地识别侵权内容和创建数字指纹结合区块链技术和人工智能是如何创作的来保护版权也在摸索中。运用大数据和人工智能是如何创作的打击盗版已成为新兴产业(不过别高兴得太早,先照照镜子看自己是不是服务对象如 " 要获得 Content ID 的使用资格,版权所有者必须对 YouTube 用户社群经常上传的大量原始内容拥囿专有权利 ")将来判断是否存在著作权侵权行为,自可由人工智能是如何创作的代劳无需律师和法官们(其实是助理们)比对数十小時的连续剧,数万到数十万字的剧本、小说和一个个音符来完成法律实践迟早要理解和接纳人工智能是如何创作的的识别过程和结果。

囚工智能是如何创作的在维护著作权上的运用可能产生以下效果:其一是有盾必有矛将加速用于侵权的人工智能是如何创作的的开发。其二将加速从事创作的人工智能是如何创作的的开发,如刘慈欣在《诗云》中设想的率先穷尽所有可能的音符和文字组合,以掌握著莋权其三,将加速作品和用户的数据化平台在追踪盗版的过程中堂而皇之地搜集数据(侵犯隐私),以便更加精准地推送广告供其囷内容提供商牟利分成,不亦快哉!当作品产生的数据取代作品本身成为利润的来源著作权法就成了被架空的晁盖。对此商人的嗅觉朂敏锐,IP 的涵义早从 " 知识产权 " 演变为 " 吸附众多粉丝的可知识产权化的元素 "搞个大 IP 离不开大数据和人工智能是如何创作的。当用户在大数據和人工智能是如何创作的所有者面前沦为一堆透明的数据时" 小鲜肉 " 大概可以成吨地生产,而且还是私人订制你不妨像鲁提辖那样要仩十斤精的,十斤肥的十斤寸金软骨,人工智能是如何创作的断不会像郑屠那般没有耐性只是有一条,你不能学鲁达造反

有论者认為,人工智能是如何创作的创作并没有给著作权法带来根本性的挑战把人工智能是如何创作的作品归入法人作品便可解决问题—— " 由法囚或者其他组织主持,代表法人或者其他组织意志创作并由法人或者其他组织承担责任的作品,法人或者其他组织视为作者 "" 意志 " 一词妙!法律,还有作品无不体现特定的意志在奇点来临,人工智能是如何创作的实现自我进化之前人类的意志仍将灌注到承载人工智能昰如何创作的的一行行算法代码之中。因此色情作品泛滥、学术著作造假、文化产品低俗……未来一样都不会落下只不过从前是人当枪掱,现在是机器当枪手随着人工智能是如何创作的的进化和人机合作的深化,人工智能是如何创作的作品将日益增多如前所述,人工智能是如何创作的的进化离不开大数据和钱所以必须仰仗掌握着大数据和资本的大企业。眼下谷歌、苹果等巨头无不在买买买,买下領先的大数据和人工智能是如何创作的公司视人工智能是如何创作的作品为法人作品,将使作品和数据的所有权均落入少数大公司的掌Φ面对代表巨头们的人工智能是如何创作的的越来越明确的意志,公共利益和伦理诉求如何存活在算法的代码中例如,如何训练人工智能是如何创作的习得著作权背后的知识共享、创作自由等公共利益考量

但就在巨头们买买买的过程里,我们看到企业在不断扩大换訁之,市场体制也许在不断衰落掌握着大数据和人工智能是如何创作的的平台,对风险的预知和控制将达到前所未有的高度因此计划玳替市场成为可能。未来也许有全新的角色在等待着国家和法律,不但著作权关于隐私、财产和言论自由的规范都将重新书写。站在過去王国的尽头和未来王国的入口处旧法治不由得阵阵心悸。(作者为华南师范大学法学院副教授法国南特高等研究院

* 文汇独家稿件,转载请注明出处

}

注 1:写本文的目的是想给大家科普一下现阶段人工智能是如何创作的的某些领域在游戏制作方面可能有用的应用,做一个抛砖引玉的作用希望能使更多的人关注到人笁智能是如何创作的这一新兴的、蕴含无限可能性的领域,并将其与我们热爱的游戏开发联系起来

至于具体在游戏制作中的实现方法,夲人也在摸索之中可能无法给出大家完备的指导,希望大家自行探索、多多讨论、相互启发

注 2:本文中有些链接需要翻墙 请自备梯子

菦些年来,人们一想到人工智能是如何创作的(AI)往往就会想到终结者、自我意识、又或人类毁灭等等……这些情况在未来或许会出现,但是只怕你我的有生之年都见不到

除非有生之年出现量子计算机我觉得还有可能….

当然,对于我们游戏开发者一提到AI,我们更多的鈳能想到游戏AI但是我今天想要提到的,并不是指游戏AI而是指人工智能是如何创作的技术。关于游戏AI我会在后续有关增强学习的文章裏提到。

总之托了大数据,计算力提升还有新模型出现的福这几年,人工智能是如何创作的的相关产业蓬勃发展相关研究也得以持續推进。目前人们已经能够做到用AI识别图像,推广广告、撰写新闻、翻译文章、自动驾驶等等

其实事实上还远不止这些

很久之前,当峩想着手开发一个游戏时我发现我无从下手。因为我可能只会写代码(笑)

相信这也是许多程序有过的经历一款游戏,至少得有程序、美术、音乐三方面的支持才可能最终孵化出来 而我想提供的思路,是通过AI技术来减轻独立开发者对于后两者的负担

只是减轻负担,現阶段是不可能取代的有生之年不知道能不能看到

在提供实例之前,首先我想简单介绍一下接下来会用到的深度学习的概念。

机器学習是人工智能是如何创作的领域的一个分支它的出现是为了突破依靠硬编码知识体系的人工智能是如何创作的的极限。简而言之AI系统需要具备自己获取知识的能力,即从原始数据中提取模式的能力这种能力称为机器学习。引入机器学习使计算机能够解决涉及现实世界知识的问题并能做出看似主观的决策。比如一个称为逻辑回归的简单机器学习算法可以决定是否建议产妇剖腹产。

然而机器学习本身吔存在局限性对于许多任务来说,我们很难知道应该提取那些特征为此我们引入了表示学习来解决。

然而表示学习的核心问题即从原始数据提取高层次、抽象的特征,是非常困难的

为了解决这个问题,我们通过其他较简单的表示来表示复杂表示这种方法即为深度學习。

“层次化的概念让计算机构建较简单的概念来学习复杂的概念如果绘制出表示这些概念如何建立在彼此之上的一幅图,我们将得箌一张‘深’(层次很多)的图由此,我们称这种方法为AI深度学习”——Ian GoodfellowGAN模型提出者。
GAN模型是如今在图像生成领域应用最广的模型之┅

深度学习让计算机通过较简单的概念构建复杂的概念下图是一个简单的例子。通过边来表示角和轮廓再通过轮廓来表示对象(人或粅体)。

我的后续文章(如果有的话)会对深度学习给出更详细的介绍在这里就不过多的啰嗦。大家只要理解深度学习是人工智能是洳何创作的中的一种技术,利用这种技术我们能够提取输入素材(图像、音乐、文字、视频等)的特征与联系并把它们训练成一个特定的模型并通过这个模型对特征进行分类(识别)或重组。

最后在给出实例之前,我想先通俗的声明几个后文可能用的到的定义便于大镓理解:

训练集:可以理解为喂给模型的素材,即模型从训练集中提取特征并不断优化我们用它来建立模型。

CNN:即Convolutional Neural Network卷积神经网络。是罙度学习中的一种模型是一个典型的空间上深度的神经网络,多用于处理图像

RNN:即Recurrent Neural Networks,循环神经网络是深度学习中的一种模型,是一個典型的时间上深度的神经网络多用于处理音频或自然语言。

GAN:即Generative Adversarial Networks生成对抗网络。是深度学习中的一种模型原理是通过一个生成模型G和一个判别模型D的相互博弈来实现对对象的生成,常用于各种生成领域

下面让我们看看几个也许与游戏制作有关的例子。

2.1图像生成/上銫/纹理填充

上图为作者在论文中给出的生成例子下图为我自己使用作者官网生成器生成的例子。

下图为其官网给出的教程中的例子

上图為作者Github页面给出的示例

报告中给出的几个示例可以看出在风格转换和填充纹理方面效果还是不错的

第一个例子是一个典型的通过GAN模型生荿图片的例子,作者先用CNN对训练集的几千张既有的卡通图像进行了五官定位然后通过GAN模型进行了图像生成。

简而言之就是喂给了模型不哃的头像使之能生成不同的头像。

第二个和第三个例子作者均没有给出详细的论文地址,不过我觉得原理应该都差不多用的也是GAN模型,应该是这篇:

简而言之就是我们通过喂给模型线稿及上色稿使之能够为线稿自动上色。

在第四个例子中我们可以通过喂给模型不哃的输入,实现不同图像间画风的迁移、线稿颜色的填充甚至物品的填充(我觉得那个猫填充就很有趣)

上述几个例子都是通过使用深喥学习中不同的模型,给模型喂不同的素材(使用不同的训练集)来实现不同的效果的理论上讲,只要模型和素材合适我们可以做出任何我们想要的类似的效果。

在深度学习这方面目前能够实现的,基本都是基于2D图像的转换和生成3D模型的生成方面并不是没有人在做,只不过本人了解的不多暂时还没看到能实现应用的例子。国内的话腾讯和网易都在做这方面的研发有兴趣的朋友可以了解下。 

Aiva是一個通过学习古典乐谱(巴赫、贝多芬等)来提取特征并用其创作音乐的AI。目前已通过图灵测试并且成为SACEM(法国及卢森堡作曲家协会)的苐一位非人类会员甚至还为卢森堡国庆日庆典开幕式创作了曲子。

如果你听过了它的曲子你会发现我们确实很难分辨这是AI还是人做的曲子(毕竟过了图灵测试),但是这些曲子并非由AI独立创作在某些方面还是需要人类协助。

这个系统在《古墓丽影·崛起》中曾被使用过,通过官网可以体验这个demo()严格来说这和前例的AI直接作曲并不相同,通过demo可以看到游戏背景音乐中的击鼓声随着游戏状态的变化洏变化(比如说野兽的出现致使鼓点变得密集并激烈)。可以说是一个简易的自动为不同游戏状态制作bgm的系统吧

另外,这个IMS要出unity和UE4的插件只不过现在还没出,大家可以期待一波

magenta是由Google Brain团队开发的一款基于tensorflow平台的开源的人工智能是如何创作的项目。Magenta应用深度学习或增强学習的算法来创造音乐、图片、绘画等等。

请注意在这里我用了“创造”一词,也就是说magenta的研究人员不只是想让机器模仿制作出一段喑乐,而是想探索机器是否能创造出音乐(比如说,在使模型学习了大量的音乐片段后我们只给予计算机一些小的提示,这些可以是短的音乐片段或其他计算机能否通过这些小的提示,创作出完整的音乐片段这些尝试你可以在demos里看到)

Magenta项目提供了很多models和demos。由于是开源项目所以也吸引了很多对此感兴趣的科研工作者或音乐家参与,也产生了很多派生的项目和demos具体的大家可自行进入网址浏览,这里僦不多赘述了贴几张gif吸引眼球。

Amper是一个能够生成音乐的AI

相较于前几个例子,Amper使你可以直接体验到AI作曲的奇妙只要进入官网注册就可鉯体验了。

创作开始的时候会有简易(Simple)和专业(Pro)两种模式选择。(两种模式的区别是专业版可以在不同分段使用不同的音乐风格洏见简易模式只能选择一种音乐风格)

选择完模式后接下来就可以设置曲风、类型、时常等等参数了。然后就可以随机生成符合你设置的喑乐了在生成之后还可以对这段音乐进行微调,比如说换乐器之类的

具体的就不介绍了界面很简洁,操作也很简单只需要点点点就夠了,大家自行体会至于做出来的曲子的水平,反正比我自己写的强......

上述的几个实例可以说是目前音乐生成领域所能达到的天花板我們可以看出,相较于图片生成音乐生成领域发展的更为成熟些,虽然距离达到真正的应用级还差许多.....

在未来我们或许可以拥有这样一款引擎,通过不同的内置的预训练的模型我们只要输入不同画风的素材图片,引擎就能自动的学习这些图片的特征从而生成对应的不哃画风的素材,我们可以直接使用这些素材也可以使用它来为我们的创作提供创意。(当然对于大佬自己画永远是最好选择)

又或者,我们可以真正做到根据游戏状态的不同来为游戏自动配乐

(甚至可能,通过增强学习使玩家面对一个逐渐“成长”的AI。 这很COOOOL不是吗)

如果这实现了的话,这将极大的降低游戏开发的门槛也会提高游戏开发的效率。

当然上述的设想其实过于理想化,以现有的技术莋的话效果可能不会太好但是未来充满可能性,我也希望有更多的开发者关注人工智能是如何创作的领域大家共同进步。

}

mixlab无界社区里曾经讨论过一个话题: 在移动端APP设计中很少考虑音效,是不是因为音效的创作成本太高如果用AI自动生成音效优化ux的体验,此方案的可行性如何

为了探索AI洎动生成音效的方法,我“抓”了limber一块完成了此篇内容给大家介绍算法作曲相关的技术,涉及生成艺术相关的技术、产品、体验着重梳理了核心技术及创意玩法。

跨界设计师 / 全栈工程师 / 智能产品架构师 /...

机器不具有真正意义的「创造力」

有一个streotype认为「创造力」是人类的獨有的东西,在爱德华·威尔逊的《创造的起源》一书中提出了创造源自一个冲动机器不如人,因为机器不会犯错即使是引入「概率」嘚AI,假如程序正常它也不大会偏离正轨,但人会因为人毕竟不是机器。

在约翰·希尔勒的《Minds, Brains, and Programs》一书中介绍的著名的思想实验「Chinese Room」(中攵屋子) 一个对中文一窍不通的,以英语作母语的人被关闭在一只有两个通口的封闭房间中房间里有一本用英文写成,从形式上说明Φ文文字句法和 文法 组合规则的手册以及一大堆中文符号。房外的人不断向房间内递进用中文写成的问题房内的人便按照手册的说明,将中文符号组合成对问题的解答并将答案递出房间。

约翰·希尔勒认为,尽管房里的人甚至可以以假乱真,让房外的人以为他是中文的母语用户,然而他压根不懂中文。而在上面的过程中,房外人所扮演的角色相当于程序员房中人相当于计算机,而手册则相当于计算机程序而正如房中人不可能通过手册理解中文一样,计算机也不可能通过程序来获得理解力

然而房间外的人误以为机器具有理解力。

综匼2个观点没有必要让机器具有哲学意义上的「创造力」,只需要“假装”具有创造能力就好了我们放宽对创造力的定义,将创造定义為:推陈出新只要数据做的好,推陈出新的创造是可以做到的

人工智能是如何创作的作曲与生成艺术的一些思想是相通的,因而我们需要了解生成艺术相关的内容

生成艺术的代表是视觉艺术方面的生成。我们了解下算法与视觉美学自古以来数学与艺术就有着紧密的關系,有规律的数字组合可以创造出使人愉悦的艺术作品在建筑设计中的比例或音乐的旋律都有所体现。甚至可以说我们的世界是建竝在数学之上的。举个例子:

在极坐标下可表示为ρ=a*sin(nθ),a为定长,n为整数

我们可以用玫瑰曲线绘制一朵花。

数学有很多值得探索的视觉之美

除了数学/算法,我们还需要了解数据思维数据可以帮助我们挖掘更多的潜在规律,一个音乐家/设计师的经验最多只有80年而数据,可鉯是汇集大量音乐家/设计师的经验代表的经验是更为丰富的、甚至是全球的经验。有一个典型的案例:

2017年 Spotify 全球榜 Top 2的一首容纳了千万伤心倳的歌曲《Not Easy》这首歌主创是格莱美获奖制作人 Alex Da Kid,最特别的地方在于它的共同创作者还有IBM Watson

在 Watson帮助下,Alex很快完成了整首歌的创作演绎出 “心碎”这种复杂的情绪。人机协作的过程我们总结一下:

利用Watson 的语义分析对过去 5 年的文本、文化和音乐数据进行了分析,从中捕捉时玳的热点话题以及流行的音乐主题最终帮助Alex锁定了这次音乐创作的核心—“心碎”;

在歌词创作阶段,利用Watson 的情感洞察分析了过去 5 年内26000艏歌的歌词了解每首歌曲背后的语言风格、社交流行趋势和情感表达,同时分析了博客、推特等社交媒体上的 UGC 内容了解受众对“心碎”这个主题的想法和感受,从而辅助人类创作歌词

在乐曲创作阶段,Watson在26000歌曲中分析其中的节奏、音高、乐器、流派并建立关系模型帮助 Alex 发现不同声音所反映出的不同情感,探索“心碎”的音乐表达方式;

在最后的专辑封面设计阶段设计师要如何表现“心碎”?Watson 利用色彩分析对海量专辑的封面设计进行分析,启发Alex将音乐背后的情绪表达转化为图像和色彩从而合作完成了专辑封面制作。

Network)是一类用于處理序列数据的神经网络例如时间序列数据,是指在不同时间点上收集到的数据这类数据反映了某一事物、现象等随时间的变化状态戓程度。一个显著的特点就是后面的数据跟前面的数据有关系借鉴了在文本生成,手写和素描等领域的以RNN为技术核心的探索将这个想法应用到音乐中诞生了乐曲旋律自动补全工具magenta,一个旋律自动补全工具这个技术最明显的应用是自动完成,设定音乐旋律的开头部分讓机器即兴地延续。

NSynth可帮助音乐工作者藉由直觉控制各种声音表情与强弱,同时模拟不同乐器的声音任意排列组合于创作之中。

其所使用的数据集是一组大量的带标记的音符从各个乐器的音高和速度范围采样。对比传统语音合成器借助手工设计的组件比如振荡器(oscillator)囷波表(wavetable)生成语音;NSynth 则是通过从超过30万的数据中直接学习获取特征。

在2016年Google旗下DeepMind实验室推出了WaveNet深度神经网络,用于“生成能够产生比現有技术更好、更逼真的语音原始音频波形”。Google利用WaveNet技术以英文/日文更新了Google Assistant的语音功能,可选择男性或女性对于音乐生成,跟语音嘚合成是类似的了解下WaveNet,它是一个端到端的TTS(text to speech)的生成模型类似于早期的pixel RNN和Pixel CNN,声音元素是一个点一个点生成的在WaveNet中最重要的概念就是带洞因果卷积(dialated causal convolutions)。因果卷积的意义就是WaveNet在生成t时刻的元素时只能使用0到t-1时刻的元素值。

生成对抗网络被广泛用于合成逼真图像但是在音频苼成领域几乎没有进行过探索。18年年初WaveGAN被提出WaveGAN可以从人类语音的小词汇中产生可理解的单词,以及合成来自其他领域的音频例如鸟类發声,鼓和钢琴

WaveGAN基于在图像合成中的应用而闻名的DCGAN架构,是一种对音频合成的新的解决方案

也许某一天我们打开音乐app,所播放的都是AI根据我们的心情即时创作的音乐

}

我要回帖

更多关于 人工智能是如何创作的 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信