网易智能讯4月23日音讯,据国外新闻媒体报道,一个由加州大学旧金山分校的研讨团队打造的新式人工智能体系可依据人脑信号来生成文本,精确率最高可达97%。
亚马逊和谷歌等科技公司打造的虚拟帮手适当先进,语音辨认才能比起几年前前进惊人,近年来人们才刚开始体会它们的威力。
但是,事实上,一项更令人惊叹、更匪夷所思的里程碑式技能创新或许行将完成。它的呈现让语音辨认技能彻底相形见绌,这是一个非常强壮的人工智能(AI)体系,可以精确的经过人们的大脑活动直接生成完好的文本,整一个完好的进程彻底不需求听到任何一个单词。
这不彻底是科幻小说中的概念。近几十年来,从动物模型到人类参与者,脑机接口技能的开展可谓日新月异。事实上,这类技能现已在测验将这种概念从梦想变成实践。
加州大学旧金山分校的研讨人员在一项新研讨中解说说,现在来看,经过该技能将人脑信号转换成的文本成果还不很精确。
为了探求是否可以改进这一状况,由加州大学旧金山分校Edward Chang试验室神经外科教授Edward Chang领导的一个团队运用了一种全新的方法来解码脑皮质电图:经过植入大脑的电极,来获取皮质活动中所发生的电脉冲记载。
在这项研讨中,四名癫痫患者运用了这种植入物,以便监测他们的身体状况引起的癫痫发生状况。研讨团队还进行了一项顺便试验:让参与者大声、重复地朗诵一些预先预备的语句,一起经过电极来记载他们在此期间的大脑活动。
然后,这些数据被输入到一个神经网络,该网络依据试验的音频记载,分分出与特定语音特征(如元音、子音或口型)相对应的大脑活动形式。
之后,另一个神经网络对这些大脑体现进行解码——参与者重复朗诵30到50个语句时发生的大脑活动数据——并据此来测验猜测人们所说的话,猜测依据他们朗诵单词时所发生的皮层信号来进行。
在最好的状况下,该体系在将其中一名参与者的大脑信号转化成文本时,词错率(WER)只要3%——至少在这些严厉限制的试验条件下,这个词错率或许现已接近于迄今为止人工智能读取人的主意的最佳体现。
在研讨论文中,研讨团队具体列举了许多参与者所朗诵的参照语句的比如,以及神经网络所生成的“猜测”。那些猜测有时是过错的,但也不总是犯错。但是,从那些很明显的过错来看,它们好像与人耳听语音时会犯的过错大不一样(这或许是人工智能引进的数据集有限所造成的)。
神经网络犯错的比如包含:“这家博物馆每天晚上都延聘音乐家过来”,被猜测为“这家博物馆每个贵重的早晨都延聘音乐家过来”;“蛋糕的一部分被狗吃掉了”,被猜测为“蛋糕的一部分是饼干”;“蒂娜·特纳是一位盛行歌手”,被猜测被“迪德·特纳是一位盛行歌手”。
在最糟糕的比如中,神经网络的过错彻底不可思议,不管是在语音上仍是在语义上,都与实践的语句彻底搭不着边:“她穿戴温暖的羊毛工装裤”被猜测为“绿地是空中楼阁”。
但是,研讨团队称,尽管这些清楚明了的过错有些怪异,但总的来说,该体系或许仍是改写了根据AI的大脑活动解码的最佳体现,究竟它体现最好时的词错率只要5%,可以与专业的人工语音转录混为一谈。
当然,要敷衍日常讲话的专业转录员有必要得有数以万计的词汇量。相比之下,这个体系只能从有限的短句中学习到大约250个单词的皮层特征,所以拿二者相比较并不公正。
尽管还有许多妨碍需求战胜,但研讨团伙以为,该体系有朝一日或许会让那些失掉说话才能的人可以从头“开口”说话。假如这样的工作成为或许,会有望发生巨大的影响——为一些人供给一种与周围世界沟通的方法——并且所带来的影响或许会远远超出人们现在的幻想。
研讨论文的作者解说说,“在长时间植入的参与者中,可用的练习数据量将比本研讨中运用的半小时左右的语音量大几个数量级,这在某种程度上预示着输入言语的词汇量和表达灵活性会大幅度的提高。”
该研讨的成果宣布在《天然神经科学》杂志上。(乐邦)