车内多位置的语音交互是智能座舱的入口,包括语音识别、唤醒、定位等功能。声源定位、个性化音区、分区控制、后排交互、多音区唤醒/识别/定位是智能座舱语音接下来的研发方向。
车载语音识别和通话质量受到发动机、空调、人声、多媒体等车内噪音的严重影响,因此为了保障用户在车载场景的语音交互体验和识别率,需要在语音前端增加ECNR(EchoCancellation&NoiseReduction,回声消除+降噪)前端语音处理模块。
对于目前车载语音识别方案,声学前端处理产品多采用硬件方案,如富迪的FM1388系列和讯飞的XF6000系列ECNR模块等,使用纯软件算法的ECNR效果还有待进一步验证。
声源定位:快速定位音源位置,并配合窄波束形成拾音波束,应用在语音识别场景中。
通过声源定位可以快速确定发音人的位置,进行单音区(主驾单MIC)/双音区(前排主副双MIC)/四音区(前后双排四MIC)的语音识别与唤醒,满足车内多个位置的语音交互体验,使汽车更智能、更有乐趣。
回声消除:用于语音识别和免提通话中,消除近端媒体立体声回声,实现全双工实时的、双向的语音交互。
在车载环境内会同时存在音乐和发音源信号,在语音识别时,需要把音乐给屏蔽掉,即为回声消除。回声消除以音乐信号作为参考信号,抑制环境噪音并增强有效的语音信号,最后将发音源信号送到唤醒引擎做后续的语音唤醒处理。
窄波束:在空间上形成一定角度的拾音波束,信号在波束内保留,波束外抑制,通过窄波束可以定位到主驾、副驾以及后排左右位置,主要应用在语音识别和免提电话中,可以提高语音识别率和通话质量。
通常主驾驶拾音区角度30°≤θ1≤90°,无效区角度90°≤θ2≤110°,副驾驶区角度110°≤θ3≤165°,后排左右同前排。
阵列降噪:可以利用双/多MIC阵列,抑制平稳噪声,解决高噪下的语音识别问题。降噪从降噪方式上可以分为主动降噪和被动降噪,从实现方式上又可以分为硬件降噪和软件降噪,硬件降噪顾名思义通过硬件方案来消噪,软件降噪则完全由软件算法实现,降低硬件成本。
被动降噪是指在声源、传播过程中、人耳处通过隔声材料进行噪声隔离,原理简单、降噪成本低,且被动降噪对高频率声音较有效,一般可使噪声降低大约为15-20dB,如机舱与引擎盖贴隔音棉、止震板等。
主动降噪:ANC(ActiveNoiseCancellation)通过产生与噪声同频率幅值的反向声波,与噪声相位抵消,车载ANC用于消除发动机和传动系统噪音等。借助ANC麦克风采集噪音,经过算法处理后,利用车载扬声器产生与车辆噪音完全相反的声波,从而衰减噪音,目前主要在高端车型中,如卡迪拉克等。
麦克风类型
车载ECNR及多音区语音交互受到MIC布置、类型影响。MIC类型根据指向性可分为全指向、心型指向、双指向等,在车载领域应用主要有全指向和单指向两种,麦克风的数量逐渐由单麦,到双麦,四麦及更多(多音区)。
全指向MIC能够360°全向拾音,在任何方向,MIC的灵敏度值相等,成本低、抗风和抗振性能好,但抗噪性能差。单指向MIC在正前方0°位置有较高的灵敏度,极性图呈心形,抑制噪声和干扰好,抗风/抗振性能差、声学结构要求高。
车用MIC类型从材料上还包括ECM驻极体麦克风、MEMS硅麦克风,硅麦克风在温/湿度长期性能、可靠性、一致性等方面较好,ECM在温/湿度变化下会影响MIC的性能。
另外,在多音区的语音识别场景中,对MIC的一致性要求比较高,其灵敏度、频率响应、信噪比和相位等参数会直接影响多音区的隔离度和语音干扰抑制,一般灵敏度控制住±1dB,信噪比在63d,相位差尽可能小等。
麦克风布置
注意麦克风布置要远离空调出风口等声源口,通常摆放在前排顶灯、中控台等,左右水平摆放,尽量在左右中间对称的位置,双麦间距通常在8cm-20cm之间,如声孔选择阵列多孔或者格栅孔。
全部评论 (0)