公司、政府、大学校园及行业资源交流与分享平台

tx038基于连续隐马尔科夫模型的语音识别

  • 上传者:bian2020
  • 文档格式:.rar

文档分类: 电子通信

第一节 语音识别的基本内容

语音识别是一种集声学、语音学、计算机、信息处理、人工智能等于一身的综合技术,可广泛的应用在信息处理、通信与电子系统、自动控制等领域。

语音识别主要包括语音单元的选取,特征提取技术,模式匹配准则及模型训练技术三方面内容。

一、识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词、音节和音素三种,具体选哪种,由具体的研究任务决定。

单词单元广泛应用于中小词汇语音识别系统,但不是和大词汇系统,原因在于模型库规模太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,数量相对较少,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于大、中词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的;音素单元以前多见于英语语音识别系统的研究中,但目前大、中词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母和韵母构成,且声韵母的声学特性相差很大。实际应用中常把声母的不通而构成细化声母。由于协同发音的影响,音素单元的不稳定,所以如何获得稳定的音素单元,还有待研究。

 二、特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息是由特征提取完成的。特征参数提取的目的是对语音信号进行分析处理,提取对语音识别有用的信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑个方面的因素,如成本、性能、响应时间、计算量等。

非特定人语音识别系统一般侧重提取反应语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。线性预测分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型没有考虑人类听觉系统对语音的处理特点;Mel参数和基于感知线性预测分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明采用这种技术语音识别系统的性能有一定提高。

压缩包文件列表

    关于本文

    • 本文标题:tx038基于连续隐马尔科夫模型的语音识别.rar
    • 链接地址:http://www.doc56.cn/item/5555.html
    • 版权声明:满满资料库 所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。

    关于我们 - 网站声明 - 网站地图 - 友情链接 - 网站客服客服 - 联系我们

    copyright@ 2010-2020 满满资料库系统版权所有
    ICP备案号:苏ICP备14036928号-2