对着计算机说几句英语,几秒之后,计算机就能用原声原调译成中文,这样的技术已成为现实。近日,微软首席研究官里克·拉希德在天津演示了这项新技术。他对着新研发的语音识别、翻译和生成系统说了8句英语,系统随即模仿他的语调翻成普通话,博得满堂喝彩。
拉希德透露,通过计算机实现原声同传,是微软在计算机语音识别技术上的重大进展。他希望再过几年,“能够打破人与人之间的语言障碍”。业内人士分析,计算机原声同传可能成为划时代的产品,随着技术日臻完善,一场“翻译革命”或已在酝酿之中。
26种语言,几秒钟传译
在互联网上,拉希德演示翻译系统的视频广受追捧。在演示中,拉希德的英语被系统转译成普通话。计算机同传不仅起到了翻译的效果,语调的抑扬顿挫听起来还像是同一个人用不同语言在讲述。虽然翻译的普通话听起来有点“伦敦音”,但每句话的意思基本都得到明确表达。
微软方面介绍说,这一技术突破的工作流程大体是:系统通过接收语音,识别说话者的声调和语言,建立模型;将这些语言翻译转换;一次性用另一种语言输出,再由同样的人声表达。
翻译之前,有1小时左右的建模过程。拉希德对系统讲了1小时左右的英语,以便系统辨识他的语音语调,建立专属拉希德的模型。模型建立后,系统就能以拉希德的声调说出包括普通话在内的26种语言。
系统开发者宋歌平表示,在建模技术应用之前,微软做了大量数据采集与挖掘工作,以便建立庞大的语音数据库,增加系统辨识语音的速度。而在翻译输出方面,能在26种语言之间转换自如,主要得益于覆盖全球主要语言的“微软对话平台”支持。
专家指出,语音识别技术已是现今的一大发展方向。包括Nuace公司的Dragon Nat-urally Speaking等在内的语音识别软件已投放办公室使用。而苹果公司的Siri等语音识别问答软件也随着iPhone的风行而广受欢迎。但微软通过语音识别,完成实时原声翻译的系统,还是开创性产品。
技术虽突破,人脑不可缺
虽然技术细节尚未披露,但拉希德透露了计算机同传得以实现的关键。“大约在两年前,微软研究院和多伦多大学的研究人员取得了一项突破,利用模拟人脑行为的‘深度神经网络’技术,提升语音识别器的辨识能力。”拉希德说,通过这种人脑仿生技术,微软的语音识别错词率较以往降低了30%,以前每4到5个单词中便有1个错词,如今7到8个词中才错1个。错词率的降低被视作计算机同传技术中决定性的改变。
在世界范围内,不少知名公司都在研发同声传译软件。如AT&T、谷歌等公司,都拥有自己的同声传译软件。而日本电话电报公司下辖的手机公司NTT DoCoMo此前展示过一个智能手机应用系统,便于日语使用者能利用母语无障碍地与外国人交谈。
微软此次的突破,除了平抑错误率,还体现在实时的原音输出。如果能在翻译中保留讲话者的语调,表意就会更为明确,交流也就更为顺畅。
更高的准确性、更强的时效性、更原汁原味的语音,微软计算机同声传译系统“看上去很美”,由此也引发了对市场空间的遐想。
数据显示,近几十年来,因机器翻译的译文质量存在问题,机器翻译一直未能成为主流。但欧盟每年花在20多种文件上的翻译支出,就站到整个欧盟行政支出的半数以上。在中国,会务、教育涉及的翻译工作每年能创造数百亿元的收入,且仍供不应求。
为此,专家认为,如果微软的机器同声传译系统能在技术上进一步完善,并平衡成本核算,进行市场推广,将给翻译市场的格局带来革命性的变化。
乐观背后,也有其他声音。复旦大学外文学院口译教研室主任、上海市口译协会副理事长管玉华指出,同传是一项由人脑解码、转码再编码的过程,其复杂性并不亚于计算机算法。无论技术如何进步,机器翻译始终是断片式的解读,不像人脑能进行综合判断。
“我们其实很欢迎技术给同传行业带来冲击,但技术终究只是不断接近翻译的顶峰,相比人脑仍有缺陷。”管玉华说,“在博物馆、展览馆及旅游景点,同传软件的技术进步能给民众带来直观的便利。但在国际会议、论坛等需要思维碰撞、观点交锋的场合,借助人脑的翻译仍是不可或缺的。”
【免责声明】本文仅代表作者个人观点,与165平板网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件内容有任何疑问或质疑,请联系本网将迅速给您回应并做处理。