• 深圳市智科城智能家居有限公司
  • 董先生:13975492800
智能让语音识别听懂人心
2021/08/11 16:54:50

      继互(hu)联网(wang)之后,人(ren)工(gong)智(zhi)能(neng)(neng)(neng)正在成(cheng)为(wei)改变世界的驱动型技术,在人(ren)工(gong)智(zhi)能(neng)(neng)(neng)领域中,语(yu)(yu)音识别技术是最为(wei)成(cheng)熟的技术之一,也是各大企业(ye)的兵家(jia)必争之地。“人(ren)工(gong)智(zhi)能(neng)(neng)(neng)机器人(ren)”、“智(zhi)能(neng)(neng)(neng)家(jia)居(ju)”、“智(zhi)能(neng)(neng)(neng)车(che)载系统”、“智(zhi)能(neng)(neng)(neng)手机”等人(ren)工(gong)智(zhi)能(neng)(neng)(neng)产品都离不开语(yu)(yu)音交互(hu)技术,除此之外(wai),新零售、凤凰彩(cai)票网(wang)教育、凤凰彩(cai)票网(wang)医(yi)疗等新兴(xing)事物(wu)对(dui)语(yu)(yu)音识别的应用(yong)需求也持续上升。


 在智能手机的各种应用中,“语音识别”属于发展比较早也比较成熟的一个领域。从初期的“语音拨号”,到现在以苹果Siri为代表的语音搜索等,智能语音产业推动的语音声控热潮已经势不可挡。在国外,世界三大大巨头(苹果、谷歌、微软)都在积极凤凰彩票网各自的智能语音市场。苹果的Siri语音控制功能更是被认为了新一轮智能语音科技革命。


     语(yu)音(yin)控(kong)制在智能(neng)家(jia)居领域(yu)其实(shi)早(zao)有应(ying)用(yong),不久之前,美国一家(jia)视听公司就透过(guo)(guo)Siri来(lai)(lai)控(kong)制快思聪自(zi)动化控(kong)制系(xi)统,用(yong)户(hu)可以(yi)通过(guo)(guo)语(yu)音(yin)来(lai)(lai)开启(qi)(qi)灯(deng)光、调整(zheng)灯(deng)光亮度、启(qi)(qi)动家(jia)庭剧院、控(kong)制空(kong)调、切(qie)换影(ying)音(yin)频道等,让家(jia)庭自(zi)动化的(de)功能(neng)往前迈进(jin)了一大步。


     在(zai)(zai)国内,中国语(yu)音产业(ye)联(lian)盟(meng)的(de)成(cheng)立有力推动了中国语(yu)音产业(ye)链上下游企(qi)业(ye)加快发展步(bu)伐。如今(jin)国内的(de)智能语(yu)音市场已(yi)经呈现(xian)(xian)出(chu)一派欣欣向荣(rong)之象。表现(xian)(xian)最为(wei)突出(chu)、竞争最为(wei)激烈的(de)当属智能电视领域。海(hai)尔(er)、长虹(hong)、TCL、海(hai)信等各大传统企(qi)业(ye)纷纷走上变革(ge)之路,推出(chu)自己的(de)智能电视。在(zai)(zai)第122届(jie)广交会(hui)上,海(hai)尔(er)空调更(geng)是展出(chu)了行业(ye)首个(ge)“语(yu)音遥控器”它为(wei)用户实现(xian)(xian)“智能化操作”带来了便捷。



语音识别的基本原理


对于不同的语音识别过程,人们采用的识别方法和技术不同,但所用的原理大致相同,即将经过降噪处理后的语音送入特征提取模块,然后对语音信号特征处理后输出识别结果。


在这个过程中(zhong),特征提(ti)取是(shi)构建语音(yin)系(xi)统的关键(jian),对识别(bie)结果起到(dao)了(le)重要(yao)作用,原(yuan)理(li)见下图:



预处理(li):过滤(lv)掉原始(shi)语音中的次要信(xin)(xin)息(xi)或噪音等,将语音信(xin)(xin)号(hao)转(zhuan)化为数字(zi)信(xin)(xin)号(hao)。


特征(zheng)提取:提取语音特征(zheng)参数(shu),形成特征(zheng)矢量序列。


预处理



声音的实质是波。语音识别所使用的音频文件格式必须是未经压缩处理的文件,如人类正常的语音输入等。语音输入所面对的环境是复杂的主要存在以下问题:


·对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。

·语音信息量大,语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。

·语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。

·单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。

·环境噪声和干扰对语音识别有严重影响,致使识别率低。


所以预(yu)处理环节需(xu)要做静音(yin)(yin)切(qie)除、噪音(yin)(yin)处理和语音(yin)(yin)增强。




声学特征提取



人通过声道产生声音,声道的形状决定了发出怎样的声音。声道的形状包括舌头,牙齿等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时可以由功率谱的包络中显示出来。


因此(ci),准(zhun)确描述这一(yi)包络的(de)(de)特征就是(shi)声学特征识别(bie)步(bu)骤的(de)(de)主(zhu)要(yao)功能。接收(shou)(shou)端接收(shou)(shou)到的(de)(de)语(yu)音信号经过上(shang)文的(de)(de)预(yu)处理以后便(bian)得(de)到有效的(de)(de)语(yu)音信号,对每一(yi)帧波形(xing)进行声学特征提取便(bian)可以得(de)到一(yi)个多维(wei)向量。这个向量便(bian)包含了一(yi)帧波形(xing)的(de)(de)内容信息(xi),为后续的(de)(de)进一(yi)步(bu)识别(bie)做准(zhun)备。




语音识别技术应用


语(yu)(yu)音(yin)识(shi)别在(zai)移动终端上的(de)(de)应用最为火热(re),语(yu)(yu)音(yin)对话(hua)机器人、智能(neng)音(yin)箱、语(yu)(yu)音(yin)助(zhu)手(shou)、互动工(gong)具等层(ceng)出不穷(qiong),许多互联网公(gong)司纷(fen)(fen)纷(fen)(fen)投入人力(li)、物力(li)和财力(li)展开此方面的(de)(de)研究和应用。语(yu)(yu)音(yin)识(shi)别技术也将(jiang)进入工(gong)业、家电(dian)、通信(xin)、汽车电(dian)子(zi)、医(yi)疗、家庭凤(feng)凰彩票网、消费电(dian)子(zi)产品(pin)等各个领(ling)域(yu)。尤其是(shi)在(zai)智能(neng)家居(ju)系统(tong)中语(yu)(yu)音(yin)识(shi)别将(jiang)成为人工(gong)智能(neng)在(zai)家庭重(zhong)要(yao)的(de)(de)入口(kou),同时,未(wei)来随着手(shou)持(chi)设备的(de)(de)小型化,智能(neng)穿戴化也将(jiang)成为语(yu)(yu)音(yin)识(shi)别技术的(de)(de)重(zhong)要(yao)应用领(ling)域(yu)。




———— END————

智科城
凤凰彩票网一站式


http://plovykla.com/