业界动态
当前位置:首页>业界动态>动态详情

微软研发“宇宙翻译器”同声传译暗藏玄机

来源于:上海瑞科同传设备租赁发表者:admin

微软的语音机器看起来担当的是翻译的功能,但技术难点却是在口语的语音识别上。它实际上完成的是一系列整合工作,正如雷斯特博士所演示的那样,首先,计算机要识别人声,提取出正确的单词,翻译成相应的外语单词,再根据外语的语法形成句子,最后,还要经过从文本到语音的系统,以雷斯特自己的声音“说”出翻译后的句子。

在这一系列的过程中,翻译是其中最简单的部分,难的是如何让机器“听懂”人话。关于这项技术的研究,人类实际上已经为之奋斗了60 多年了。

一开始,计算机研究者所用的方法是简单的模式匹配,即让计算机检查人类语音产生的波型,尽量寻找与之匹配的单词。这种方法有时候有效,但更多时候则淹没在各种相似或含混的音调中,不知所云。这样的系统无法运用于实际。

上世纪 70 年代末,一种叫做“隐式马尔可夫模型”(HMM)的计算方法令语音识别技术取得重大突破。在语音识别领域中,这实际上是一种思路的转向,即从语言发音的捕捉和模仿变成尽可能多地搜集语境,建立一种更为稳健的统计语音模型,帮助机器在人机对话中理解句子的意思;而在近几年中逐渐发展起来的“人工神经网络”则加速了语言识别技术的“自学”功能,通过大量对话,让研究人员能“训练”出更富有辨别力的语音识别机器。

当然,到目前为止,语音识别仍是一项进化中的技术。时至今日,即使是最佳语音系统,在任意语音的单词识别上出错率还高达20-25%,而微软的新技术又将这一错误率降低了30%,这意味这之前四五个单词中就会出现一个错误,而现在七八个单词中才会出现一个错误。

除了微软,谷歌最近也开始用神经网络技术发展其语音识别服务。然而微软的独特性在于,他们的语音机器同时整合了语音识别、文本翻译和个性化的语音合成等技术。微软的研究人员录下数小时中国人说话的语音,从中储备所需要的语汇,再从预先录制的英文演讲数据中提取雷斯特的声音属性,当雷斯特开始说英文时,系统便自动整合所有基础技术,提供一个语音到语音的体验—用雷斯特的声音说出对应的中文。在此之前,这类技术大多只能说出人工合成的文本,而无法对人声进行同步。

本文由上海同传设备租赁公司整理发布


 

 

 
<<返 回

联系方式Navigation

上海公司电话:021-63760188 \ 63186070 \ 021-63185756 \ 021-63760109

手机:18017561640

地址:上海市中山南路谷泰滨江大厦1203室

南京公司电话:025-83602926

手机:18913929056

地址:南京市中央路323号利奥大厦1720室

Q Q:2880863719
           2880863713
           2880863718