(原标题:华为推出AI诗人“乐府”:唐诗宋词都不在话下,竟一时分不出真假)
原创 量子位 2019-09-08 12:09:11
乾明 发自 凹非寺
量子位 报导 | 大众号QbitAI
理科生文艺起来,或许真没文科生什么事了。
不信?你看下这首七言绝句:
有网友读完之后表明:
真啊,押韵,意境,内在都很赞。
不只可以写诗,还能作词,比方这首满江红:
并且,还能写藏头诗:
你能幻想,这是彻底不明白写诗的理工生的创造吗?
但它便是。
这些诗来自华为诺亚方舟实验室新推出的写诗AI“乐府”。
面世之处便引发了不少重视。
关于它的著作,有人称誉:
蕴意丰厚的诗,整齐不乏意趣,程序做的真实牛逼,给开发人员点赞
还有人“搞工作”,表明:
一声塞雁江南去,几处家书海北连。莫道征鸿无泪落,年年辛苦到燕然。要说这个AI写的没有北大中文系平均水平好我是不信的。
乃至有人说“李白看了会缄默沉静,杜甫看了会流泪”。
当然,也有人指出问题:
很整齐,不过感觉现在大多仍是syntax层面的,没有到semantics层面。略微短缺些魂灵。
也有“本相帝”出来发声:
辛弃疾的流水散文式用典,老杜的沉郁顿挫拗救法,都是AI比较难学会的。问题不是AI太凶猛,而是读者现已看不出格律诗里边比较精细的办法了…
关于这些问题,华为诺亚方舟实验室语音语义首席科学家刘群也在微博进行了答疑,披露了不少这只AI背面的故事:
其实咱们也不明白诗,咱们也没有用诗的规则去练习这个体系,彻底是体系自己学到的。
那么,这一AI到底是怎么学的?论文现已发布。
理工男の文艺源自GPT
与自在生成文本不同,生成我国的古诗词是一个应战,一般需求满意方法和内容两个方面的要求。
我国的古诗词有各式各样的方法,比方五绝、七绝、五律、七律、满江红、西江月、水调歌头等各种词牌以及对联,每一种都有相应的字数、押韵、平仄、对仗等规则;
内容方面尽管简略,但要求愈加难以揣摩:一首诗要围绕着一个主题打开,内容上还要具有连贯性。
华为提出的“乐府”体系,与当时大多数解决方案不同,不需求任何人工设定规则或许特性,也没有规划任何额定的神经元组件。
整个研讨中,需求做的便是把练习用的诗词序列化为格局化的文本序列,作为练习数据。
然后通过对言语模型token的抽样,生成满意方法和内容要求的诗词,比方绝句、律诗、词,以及对联等等。
并且,他们还提出并完结了一种对模型进行微调以生成藏头诗的办法。
这背面的能量来自GPT,一个由OpenAI提出的预练习自然言语模型,核心理念是先用无标签的文本去练习生成言语模型,然后再依据详细的使命通过有标签的数据对模型进行微调。
乐府AI是首个依据GPT打造的作诗体系,并且与谷歌提出的BERT休戚相关。
全体的GPT模型是在BERT的源代码基础上完结的,Transformer巨细的装备与BERT-base相同,也选用了BERT中发布的tokenization脚本和中文 vocab。
详细来说,练习诗篇生成模型的进程如下:
整个模型练习进程总共有两个阶段: 预练习和微调。
华为的这个GPT模型,是用一个中文新闻语料库进行预练习的,然后通过收集了揭露可得的我国古诗词进行微调。
如上图所示,首要将示例诗篇转换为格局化序列。序列包含三个首要部分:格局、主题和诗体,中心用标识符分隔。
在对联中,由于没有主题,就上句为主题,第二行为正文。所以,在生成对联的时分,就成了给出上联,生成下联的方法,也契合了“对对子”的习气。
全体的数据集规划并不小,预练习用的中文新闻语料库,有2.35亿语句。微调用的数据集有25万绝句和律师,2万首词以及70万对对联。
预练习是在华为云上完结的,运用8块英伟达V100(16G) GPU练习了4个echo,总共耗费了90个小时。
微调的进程是将一切诗篇序列输入Transformer,并练习一个自回归言语模型。方针是观测任何序列的概率最大化:
微调的进程,不需求特别长的时刻,假如练习过长,这个模型就在生成进程中,就会倾向于从语料库中直接用原始语句了。
练习完结后,先即将生成的诗篇的格局和主题转化为一个初始序列,然后将初始序列输入到模型中,然后对诗体部分的剩下字段按token进行解码。
在解码进程中,并不运用硬束缚来确保格局的正确性,而是让模型主动为特定方位分配逗号和句号,在识别到token为“EOS”的时分,解码进程完毕。
并且,选用切断 top-k 抽样战略来取得不同的诗篇,而不是束查找。详细是每次采样一个Token时,首要挑选具有 top-k 最大概率的Token,然后从 top-k Token中采样一个特定的token。
他们说,即便选用截短的 top-k 抽样战略,生成的诗篇仍然是正确的方法。
论文中介绍称,练习藏头诗的办法也是这样,仅仅在格局化序列的时分办法有所不同:用每一行中榜首个字符的组合来替代一首诗的原始主题:“五言绝句(格局)床疑举低(藏头诗)床前明月光,疑…月,垂头思故土。”
作用怎么,华为也在论文中进行了充沛的展示,比方下面这四首“江上田家”,只要一首是唐朝诗人写的,其他三首都是来自乐府AI。
从上到下,ABCD,你能辨别出来哪个是真迹吗?(答案在文末揭晓)
谁是榜首AI诗人?
我国古诗词生成AI,华为“乐府”并不是榜首个,也不是最终一个。
在此之前,就有清华大学孙茂松团队提出的“九歌”。
依据官方介绍,这一体系的选用深度学习技能,结合多个为诗篇生成专门规划的模型,依据超越80万首人类诗人创造的诗篇进行练习学习,具有多模态输入、多体裁多风格、人机交互创造方法等特色。
近来,也有人依据中文版的语料练习出了中文版的GPT-2,并将其用于诗篇生成。
就在“乐府”上线的这一天,还有北京大学、国防科大等组织联合发布了新的作诗模型,依据无监督机器翻译的办法,运用依据分段的填充和强化学习依据白话文生成七言律诗。
那么,哪一个更强呢?
由于中文版GPT-2和北京大学联队的体系还没有敞开体会,参加这场“华山论剑”的就只要华为“乐府”和清华“九歌”两个选手。
榜首轮:主题“夏天”,七言绝句
清华九歌赋诗一首:
华为乐府赋诗是这样的:
两个AI都有瑕疵的当地,清华九歌一张嘴就开端说“秋来”,华为乐府也提到了“四月”,并没有特别的意思,明显都与夏天有些收支。
但相比之下,华为乐府的夏天元素也更多一些,比方荷香,夏阴等等。
第二轮:主题“长夜”,五言绝句
来自清华九歌的诗是这样的:
不须愁独坐,相对倍凄然?这个意境Emmm……婚姻要破裂了?
华为乐府的著作:
直观上来看,意境描写不错,但冲击力有所缺乏。
这一轮,两个AI表现都不错,并且都有相应的意境表现出来。相对来说, 清华九歌的情感层次更丰厚一些。
第三轮,藏头诗“神经网络”,七言绝句
清华九歌著作是这样的:
从押韵和意境来看,都还不错。华为乐府给出了这样一首诗:
相同,这首藏头诗也可以展示几分意境。
这一轮,两只AI都能较切当地完结使命,给出了具有几分意境的诗词。
至此,通过三轮比拼,全体上来说,高低难分。其不同,在于两边的完结方法。
清华九歌,依据多个为诗篇生成专门规划的模型,相对来说比较复杂,在诗篇的格局上,操控比较严厉,尽管严厉但作诗速度确实比较慢。
而华为的乐府,仅仅依据GPT,依照刘群的话来说,他们也不明白诗篇,并没有用诗的规则去练习这个体系,彻底是体系自己学到的,生成诗篇的时分速度很快。
关于乐府AI生成的诗篇水平,刘群也较为谦善:
咱们找过懂诗的人看,说韵律平仄并不彻底契合规则,仅仅外行读起来还比较顺口罢了。
至于两种方法孰优孰劣,也无妨参阅下那句老话:文无榜首。
华为诺亚方舟实验室
华为诺亚方舟实验室成立于2012年,隶属于华为2012实验室。
诺亚方舟为名,也能表现出这一实验室在华为内部的重要性。此前,任正非也提到过,期望这些实验室可以成为华为的“诺亚方舟”。
现在,这一实验室在深圳、香港、北京、上海、西安、北美和欧洲等城市设有分部。研讨方向包含核算机视觉、自然言语处理、查找引荐、决议计划推理、人机交互、AI理论、高速核算等。
关于乐府AI,华为也在论文中标示阐明,这是他们在研讨GPT时的一个副产品。现在,华为乐府AI现已在小程序EI体会空间上线。
支撑五言绝句、七言绝句、五言律诗和七言律诗,以及藏头诗方法。作词、对对子还没有上线。
最终,附上一首乐府生成的七言律诗人工智能。
对了,答案选C。
本文来历:量子位 责任编辑:王凤枝_NT2541