首页>>科技 >>内容

语音识别,什么是语音识别

发布时间:2023-10-03 17:12:18编辑:温柔的背包来源:

语音识别,什么是语音识别

很多朋友对语音识别,什么是语音识别不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

语音识别,什么是语音识别?语音识别与机器交流,让机器明白你在说什么,这是人们长久以来的梦想。语音识别技术是一种高科技,它允许机器通过识别和理解的过程将语音信号转换为相应的文本或命令。语音识别是一门交叉学科。在过去的二十年里,语音识别技术取得了显著的进步,并开始从实验室走向市场。

据预测,未来10年,语音识别技术将进入工业、家电、通信、汽车电子、医疗保健、家庭服务、消费电子等各个领域。语音识别听写机在某些领域的应用被美国新闻界评为1997年计算机发展十大事件之一。许多专家认为,语音识别技术是2000年至2010年信息技术领域十大重要技术发展技术之一。

语音识别技术涉及的领域包括:信号处理、模式识别、概率论与信息论、发声机制与听觉机制、人工智能等等。通过语音控制各种设备,与计算机直接交流,是人类长期以来的梦想。在很多描述未来世界的电影和小说中,语音识别几乎成了人工智能的代名词。自20世纪40年代以来,随着数字技术特别是计算机的飞速发展,语音识别技术成为科学研究的热点。

20世纪80年代,语音识别技术开始从实验室转向产品。东芝在语音识别技术领域的研发始于20世纪70年代。目前已经形成了以东京-剑桥-北京为中心的全球研发体系,开发了中、日、英、法、德等超过14种语言的语音识别系统。

东芝中国R&D中心自2001年成立以来,一直致力于中文(包括粤语和各种方言)语音识别技术的研发,开发了高性能的中文语音识别引擎,如下图所示:我们的语音识别技术支持不同层次的系统需求:1。一个高度健壮的嵌入式语音识别引擎可以应用于各种电子设备,从而完成语音对电子设备的自动控制。

尤其是在车载环境下,用语音控制各种设备的‘免提’模式已经成为语音识别技术最重要的应用之一。东芝的嵌入式语音识别引擎融合了高性能的语音端点检测技术、语音增强技术和特征补偿技术,并采用了抗噪训练,可以在各种噪声环境下工作。特别针对汽车背景噪声进行了优化,在极低信噪比环境下依然可以使用。

该引擎无需特殊培训即可供不同的音箱使用,并针对不同的地方口音进行了特别优化,可以同时支持不同口音的音箱。除了高精度的命令词识别,东芝的嵌入式语音识别引擎支持大词汇量的地址识别,结合在线语法生成功能和语音标签功能,使语音激活的汽车导航成为现实。此外,该引擎还支持中文数字串识别和姓名识别,可以轻松完成声控拨号/定位任务。

该引擎采用高效的搜索算法和声学模型压缩技术,可以在资源非常有限的情况下工作。目前已经应用到很多车载导航系统中。2.语音对话系统和翻译系统中的语音听写引擎。结合语音识别/合成和机器翻译技术,不同语言之间的自动语音翻译已经成为可能。东芝的语音翻译系统已经支持中、英、日三种语言之间的翻译。

作为其中的一个重要模块,我们开发了一个高性能的汉语语音听写引擎(大词汇量连续语音识别系统)。该系统采用噪声鲁棒性技术,可适用于不同的环境。声学模型训练采用区分训练,优化不同地方的口音。高性能自适应技术可以有效提高无监督模式下对不同口音和环境的适应能力。

该引擎支持大词汇量语音听写,并提供用户词典功能。具有很高的可移植性,可以针对不同领域快速定制识别引擎。一些常用的声学特性*线性预测系数LPC:线性预测分析从人类发声的机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而可以通过前几个时刻的信号的线性组合来估计N时刻的信号。

可以通过使实际语音样本值和线性预测样本值之间的均方误差达到最小LMS来获得线性预测系数LPC。LPC的计算方法有自相关法(德宾法)、协方差法、格法等。快速有效的计算确保了这一声学特征的广泛使用。类似LPC预测参数模型的声学特征有线谱对LSP、反射系数等。

倒谱系数CEP:倒谱系数可以利用同态处理方法,对语音信号进行离散傅里叶变换DFT后取对数,再进行逆变换iDFT得到。对于LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以通过一个递推公式计算出来。实验表明,倒谱可以提高特征参数的稳定性。

*梅尔倒谱系数MFCC和感知线性预测PLP:与LPC等通过研究人类发声机理获得的声学特征不同,梅尔倒谱系数MFCC和感知线性预测PLP是从人类听觉系统的研究成果中衍生出来的声学特征。对人类听觉机制的研究表明,当两个频率相近的音调同时发出时,人只能听到一个音调。

临界带宽是指这样一个带宽边界,使人的主观感受突然发生变化。当两个音调的频率差小于临界带宽时,人们会把两个音调听成一个,这就是所谓的屏蔽效应。Mel标度是测量这一临界带宽的方法之一。

MFCC的计算首先通过FFT将时域信号变换到频域,然后将其对数能量谱与按Mel尺度分布的三角形滤波器组进行卷积,最后对每个滤波器的输出形成的向量进行离散余弦变换(DCT)得到前n个系数。PLP仍然使用Durbin方法来计算LPC参数,但是它也使用DCT方法来计算自相关参数。语音识别系统的主要性能指标有四个。

词汇表范围:这是指机器可以识别的单词或短语的范围。如果没有限制,词汇范围可以认为是无限的。(2)说话人限制:是只能识别指定说话人的声音,还是识别任意说话人的声音。训练要求:使用前是否需要训练,即是否让机器先“听”给定的语音,训练次数。正确识别率:正确识别的平均百分比,与前三项指标有关。

总之,以上介绍了实现语音识别系统各个方面的技术。这些技术在实际使用中取得了很好的效果,但是如何克服影响发音的各种因素还需要更深入的分析。目前,听写机系统还不能完全替代键盘输入,但识别技术的成熟促进了更高层次语音理解技术的研究。

由于英语和汉语具有不同的特点,如何在汉语中使用为英语提出的技术也是一个重要的研究课题,汉语特有的问题如四声也需要解决。

以上知识分享希望能够帮助到大家!