165平板网 >今日热点 >正文

华为推出AI诗人乐府唐诗宋词都不在话下

2019-09-08 17:13:24 来源：量子位作者：责任编辑NO。魏云龙0298浏览次数：5523

（原标题：华为推出AI诗人“乐府”：唐诗宋词都不在话下，竟一时分不出真假）

原创量子位 2019-09-08 12:09:11

乾明发自凹非寺
量子位报导 | 大众号QbitAI

理科生文艺起来，或许真没文科生什么事了。

不信？你看下这首七言绝句：

有网友读完之后表明：

真啊，押韵，意境，内在都很赞。

不只可以写诗，还能作词，比方这首满江红：

并且，还能写藏头诗：

你能幻想，这是彻底不明白写诗的理工生的创造吗？

但它便是。

这些诗来自华为诺亚方舟实验室新推出的写诗AI“乐府”。

面世之处便引发了不少重视。

关于它的著作，有人称誉：

蕴意丰厚的诗，整齐不乏意趣，程序做的真实牛逼，给开发人员点赞

还有人“搞工作”，表明：

一声塞雁江南去，几处家书海北连。莫道征鸿无泪落，年年辛苦到燕然。要说这个AI写的没有北大中文系平均水平好我是不信的。

乃至有人说“李白看了会缄默沉静，杜甫看了会流泪”。

当然，也有人指出问题：

很整齐，不过感觉现在大多仍是syntax层面的，没有到semantics层面。略微短缺些魂灵。

也有“本相帝”出来发声：

辛弃疾的流水散文式用典，老杜的沉郁顿挫拗救法，都是AI比较难学会的。问题不是AI太凶猛，而是读者现已看不出格律诗里边比较精细的办法了…

关于这些问题，华为诺亚方舟实验室语音语义首席科学家刘群也在微博进行了答疑，披露了不少这只AI背面的故事：

其实咱们也不明白诗，咱们也没有用诗的规则去练习这个体系，彻底是体系自己学到的。

那么，这一AI到底是怎么学的？论文现已发布。

理工男の文艺源自GPT

与自在生成文本不同，生成我国的古诗词是一个应战，一般需求满意方法和内容两个方面的要求。

我国的古诗词有各式各样的方法，比方五绝、七绝、五律、七律、满江红、西江月、水调歌头等各种词牌以及对联，每一种都有相应的字数、押韵、平仄、对仗等规则；

内容方面尽管简略，但要求愈加难以揣摩：一首诗要围绕着一个主题打开，内容上还要具有连贯性。

华为提出的“乐府”体系，与当时大多数解决方案不同，不需求任何人工设定规则或许特性，也没有规划任何额定的神经元组件。

整个研讨中，需求做的便是把练习用的诗词序列化为格局化的文本序列，作为练习数据。

然后通过对言语模型token的抽样，生成满意方法和内容要求的诗词，比方绝句、律诗、词，以及对联等等。

并且，他们还提出并完结了一种对模型进行微调以生成藏头诗的办法。

这背面的能量来自GPT，一个由OpenAI提出的预练习自然言语模型，核心理念是先用无标签的文本去练习生成言语模型，然后再依据详细的使命通过有标签的数据对模型进行微调。

乐府AI是首个依据GPT打造的作诗体系，并且与谷歌提出的BERT休戚相关。

全体的GPT模型是在BERT的源代码基础上完结的，Transformer巨细的装备与BERT-base相同，也选用了BERT中发布的tokenization脚本和中文 vocab。

详细来说，练习诗篇生成模型的进程如下：

整个模型练习进程总共有两个阶段: 预练习和微调。

华为的这个GPT模型，是用一个中文新闻语料库进行预练习的，然后通过收集了揭露可得的我国古诗词进行微调。

如上图所示，首要将示例诗篇转换为格局化序列。序列包含三个首要部分：格局、主题和诗体，中心用标识符分隔。

在对联中，由于没有主题，就上句为主题，第二行为正文。所以，在生成对联的时分，就成了给出上联，生成下联的方法，也契合了“对对子”的习气。

全体的数据集规划并不小，预练习用的中文新闻语料库，有2.35亿语句。微调用的数据集有25万绝句和律师，2万首词以及70万对对联。

预练习是在华为云上完结的，运用8块英伟达V100(16G) GPU练习了4个echo，总共耗费了90个小时。

微调的进程是将一切诗篇序列输入Transformer，并练习一个自回归言语模型。方针是观测任何序列的概率最大化：

微调的进程，不需求特别长的时刻，假如练习过长，这个模型就在生成进程中，就会倾向于从语料库中直接用原始语句了。

练习完结后，先即将生成的诗篇的格局和主题转化为一个初始序列，然后将初始序列输入到模型中，然后对诗体部分的剩下字段按token进行解码。

在解码进程中，并不运用硬束缚来确保格局的正确性，而是让模型主动为特定方位分配逗号和句号，在识别到token为“EOS”的时分，解码进程完毕。

并且，选用切断 top-k 抽样战略来取得不同的诗篇，而不是束查找。详细是每次采样一个Token时，首要挑选具有 top-k 最大概率的Token，然后从 top-k Token中采样一个特定的token。

他们说，即便选用截短的 top-k 抽样战略，生成的诗篇仍然是正确的方法。

论文中介绍称，练习藏头诗的办法也是这样，仅仅在格局化序列的时分办法有所不同：用每一行中榜首个字符的组合来替代一首诗的原始主题：“五言绝句(格局)床疑举低(藏头诗)床前明月光，疑…月，垂头思故土。”

作用怎么，华为也在论文中进行了充沛的展示，比方下面这四首“江上田家”，只要一首是唐朝诗人写的，其他三首都是来自乐府AI。

从上到下，ABCD，你能辨别出来哪个是真迹吗？（答案在文末揭晓）

谁是榜首AI诗人？

我国古诗词生成AI，华为“乐府”并不是榜首个，也不是最终一个。

在此之前，就有清华大学孙茂松团队提出的“九歌”。

依据官方介绍，这一体系的选用深度学习技能，结合多个为诗篇生成专门规划的模型，依据超越80万首人类诗人创造的诗篇进行练习学习，具有多模态输入、多体裁多风格、人机交互创造方法等特色。

近来，也有人依据中文版的语料练习出了中文版的GPT-2，并将其用于诗篇生成。

就在“乐府”上线的这一天，还有北京大学、国防科大等组织联合发布了新的作诗模型，依据无监督机器翻译的办法，运用依据分段的填充和强化学习依据白话文生成七言律诗。

那么，哪一个更强呢？

由于中文版GPT-2和北京大学联队的体系还没有敞开体会，参加这场“华山论剑”的就只要华为“乐府”和清华“九歌”两个选手。

榜首轮：主题“夏天”，七言绝句

清华九歌赋诗一首：

华为乐府赋诗是这样的：

两个AI都有瑕疵的当地，清华九歌一张嘴就开端说“秋来”，华为乐府也提到了“四月”，并没有特别的意思，明显都与夏天有些收支。

但相比之下，华为乐府的夏天元素也更多一些，比方荷香，夏阴等等。

第二轮：主题“长夜”，五言绝句

来自清华九歌的诗是这样的：

不须愁独坐，相对倍凄然？这个意境Emmm……婚姻要破裂了？

华为乐府的著作：

直观上来看，意境描写不错，但冲击力有所缺乏。

这一轮，两个AI表现都不错，并且都有相应的意境表现出来。相对来说，清华九歌的情感层次更丰厚一些。

第三轮，藏头诗“神经网络”，七言绝句

清华九歌著作是这样的：

从押韵和意境来看，都还不错。华为乐府给出了这样一首诗：

相同，这首藏头诗也可以展示几分意境。

这一轮，两只AI都能较切当地完结使命，给出了具有几分意境的诗词。

至此，通过三轮比拼，全体上来说，高低难分。其不同，在于两边的完结方法。

清华九歌，依据多个为诗篇生成专门规划的模型，相对来说比较复杂，在诗篇的格局上，操控比较严厉，尽管严厉但作诗速度确实比较慢。

而华为的乐府，仅仅依据GPT，依照刘群的话来说，他们也不明白诗篇，并没有用诗的规则去练习这个体系，彻底是体系自己学到的，生成诗篇的时分速度很快。

关于乐府AI生成的诗篇水平，刘群也较为谦善：

咱们找过懂诗的人看，说韵律平仄并不彻底契合规则，仅仅外行读起来还比较顺口罢了。

至于两种方法孰优孰劣，也无妨参阅下那句老话：文无榜首。

华为诺亚方舟实验室

华为诺亚方舟实验室成立于2012年，隶属于华为2012实验室。

诺亚方舟为名，也能表现出这一实验室在华为内部的重要性。此前，任正非也提到过，期望这些实验室可以成为华为的“诺亚方舟”。

现在，这一实验室在深圳、香港、北京、上海、西安、北美和欧洲等城市设有分部。研讨方向包含核算机视觉、自然言语处理、查找引荐、决议计划推理、人机交互、AI理论、高速核算等。

关于乐府AI，华为也在论文中标示阐明，这是他们在研讨GPT时的一个副产品。现在，华为乐府AI现已在小程序EI体会空间上线。

支撑五言绝句、七言绝句、五言律诗和七言律诗，以及藏头诗方法。作词、对对子还没有上线。

最终，附上一首乐府生成的七言律诗人工智能。

对了，答案选C。

本文来历：量子位责任编辑：王凤枝_NT2541

上一篇：小米5G充电邀请函现古董万能充

下一篇：华为推出AI诗人乐府唐诗宋词都不

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

华为推出AI诗人乐府唐诗宋词都不在话下

推荐图文