语言是人与人之间沟通交流的主要手段。如果言语信号受说话人与听者之间信号路径或传输通路的影响而减弱,就会导致在听者位置处的言语可懂度降低。为确定经过传输通路后言语可懂度的降低程度,一个快速客观的测量方法被开发出来,即语音传输指数(Speech transmission index STI )。通过对传输通路发出特定的测试信号,然后分析接收到的信号。导出传输通路的传输品质并使用0~1之间的值表达,这就是STI。根据STI值,就可以确定传输通路可能的言语可懂度。STI方法自上世纪70年代被提出后,一直处于完善与发展的过程中。随着IEC 60268-16的不断修订,STI方法的主要改进成果被整合进来,以提供一个广泛的、完整的、明确的STI技术标准。
STI可用来测量各种不同电子系统和声学环境下的言语可懂度,典型的应用包括:
1) 测量公共广播系统和扩声系统
2) 测量和鉴定语音报警系统和紧急通知系统
3) 测量和鉴定通信电路(系统)。例如内部通信和无线通信系统
4) 测量房间和厅堂的言语可懂度(自然声或使用扩声系统)
5) 评价直接的言语交流(不使用扩声系统)包括房间和各种声学环境(例如在交通工具内)
6) 听力辅助系统的言语可懂度评价。
本文基于国标GB/T 12060.16-2017 《声系统设备 第16部分:通过语音传输指数客观评价言语可懂度 》(IEC 60268-16:2011),介绍STI的基本原理和测试方法。
1. STI方法理论
STI 概念基于完全根据经验的发现,语音信号的波动带有涉及语音清晰度的最相关的信息。语音的波动是由于句子、单词和音素(这些都是语音的基本要素)的声学间隔而产生的。这种波动的专有名词是调制,可以通过产生调制频谱的调制频率 fm的函数来进行量化。对于清晰的语音,典型的调制频率从 0.5 Hz延伸到 16 Hz,最大调制在大约 3 Hz处。
图1 显示出在谈话者和收听者之间会发生的调制降低的示意
调制频谱通过传输通道的任何降低通常被认为是会导致语音清晰度的降低。调制频谱的这种降低对应于在一个或多个调制频率处的调制深度的降低,并且作为每个倍频带在语音频谱范围上的调制传输数值来计算。
假定在一个房间内播放或通过一个通信通路发出的测试信号的调制指数是mi;在听者位代处接收信号的调制指数是mo,那么调制深度的降低程度可由调制传递函数确定。倍频带载波在调制频率fm处的调制传递比可表示为:
测量0.63~12.5Hz这些1/3倍频带的调制传递比是整个STI测量的关键和核心。调制传递比主要受混响和背景噪声影响,图2给出了一个典型的包络信号受混响和背景噪声影响。从图中可以看到,在混响条件下,调制传递比呈现低通滤波的形状,即较快的波动比起伏慢的波动受到的影响更大,这也是很好理解的。在混响时间为T,且纯指数衰变混响理论情况下,调制频率fm处的调制传递函数m(fm)为:
对于噪声,调制传递函数由信噪比决定,与调制频率无关。噪声通过提高平均强度的方式降低所有调制频率的调制深度,各调制频率的调制传递函数值为:
式中:SNR为信噪比,为信号125Hz~8000Hz倍频带信号声压级与背景噪声声压级差值。
图2 调制传递函数受混响和背景噪声的影响
STI测试方法主要分为直接法完整STI、直接法STIPA、直接法STITEL和间接法。表1和2为STI各种方法适用性。
表1各种STI计算方法对失真的实用性对比
方法 | 失真类型 | |||
噪声 | 混响、回声 | 非线性失真 | 频谱失真 | |
直接法完整STI | 是 | 是 | 依据情况 | 是 |
直接法STIPA | 是 | 是 | 依据情况 | 是 |
直接法STITEL | 是 | 依据情况 | 依据情况 | 是 |
使用MLS的间接法 | 是 | 是 | 否 | 是 |
使用扫频信号的的间接法 | 否 | 是 | 否 | 是 |
注::研究表明传输通路的频率响应(表现为感受到的语音音调均衡)对可懂度感受的 影响要比STI测量结果所表明的重要得多。特别是在混响环境。如果频率响应不平坦,可能测得的STI要比实际可懂度的感受高很多。因此保证平坦振幅响应的一个合适解决方法是单独测量系统振幅相对频率的响应。最好采用比倍频程更高的频率分辨率。 |
表2 STI、STIPA和STITEL的适用性
应用条件 | 推荐方法 | 完整STI | STIPA | STITEL | 应用限制 | 解决方法 |
评估室内声学条件是否适合语言交流(无电子方法) | STIPA | ++ | ++ | +/- | STITEL是否适用取决于混响频率特性 | |
评价PA和VA系统 | STIPA | + | ++ | +/- | ||
评价电信通路(广播、电话) | STITEL | + | + | ++ | ||
传输通路具有振幅压缩特性 | STIPA | + | + | + | ||
关注男声和女声差别 | 完整STI | ++ | - | + | STIPA不适合女声 | |
强中心削波 | 无 | - | - | - | ||
强起伏噪声 | STIPA | +/- | +/- | +/- | 多次测量 | |
语音和噪声空间完全分开,或高混响场中存在强直达成分 | 完整STI | + | +/- | +/- | 谨慎使用 | |
不能使用人工测试信号的通路,如声码器 | 无 | +/- | +/- | +/- | 不能得到准确结果 | 主观听音 |
注:++表示非常适用,+表示很适用,+/-表示适用,-表示不适用; PA表示公共广播系统,VA表示语音报警系统。 |
2. 直接法完整STI
图3给出了STI测量调制比的一个示意图。首先将7个中心频率为125Hz~8000Hz的1/2倍频程带通滤波器对粉红噪声进行滤波,得到7个倍频带噪声信号;而后将这7个信号分别用14个调制频率fm(0.63Hz~12.5Hz的14个1/3倍频程中心频率点),以相同的调制深度m(最大为1)进行正弦强度调制。为了获得正弦强度调制的载波,载波信号按照式(3.7.37),采用一个提升的正弦调制的平方根mfm(t)进行振幅调制:
然后测量这些接收信号,并按照式(3.7.38)计算其调制深度:
式中:mdrk,fm为接收到的信号在倍频带k,调制频率fm处的调制深度;Ik(t)为倍频带k的强度包络,为采集声信号的平方。
这样,令mdtk,fm为发出的测试信号在倍频带k,调制频率fm处的调制深度,倍频带k,调制频率fm处的调制比mk,fm为:
图3 完整STI测量调制比
完整的STI测量调制比时,每个倍频带载波每次只用1个调制频率调制,生成一个长约10s的测试信号。要测量一个完整的STI需要进行14*7=98个独立的信号测试。因此完整的STI测量非常耗时。
在得到调制比矩阵后,再计算有效信噪比SNReff和传输指数TI。倍频带k,调制频率fm处的SNReff k,fm和TI k,fm为:
由于有效信噪比SNReff的值可能很大或很小,它的值被限制在-15dB和15dB之间。
得到传输指数TI后,就可以计算第k个倍频带的传输指数均值,得到倍频带k的调制传递指数MTIk:
最后使用MTIk,计算STI值:
式中:αk为倍频带k的权重因子,βk为倍频带k与倍频带k+1的冗余因子。
表3 男声和女声的倍频带权重因子和冗余因子
倍频带Hz | 125 | 250 | 500 | 1000 | 2000 | 4000 | 8000 | |
男声 | α | 0.085 | 0.127 | 0.230 | 0.233 | 0.309 | 0.224 | 0.173 |
β | 0.085 | 0.078 | 0.065 | 0.011 | 0.047 | 0.095 | - | |
女声 | α | - | 0.117 | 0.223 | 0.216 | 0.328 | 0.250 | 0.194 |
β | - | 0.099 | 0.066 | 0.062 | 0.025 | 0.076 | - |
3. 直接法STIPA
由于完整STI方法的调制比测试需要进行98次独立测试,这是非常耗时的。因此目前开发了一种简化的测量方法,根据使用场合分为直接法STIPA与直接法STITEL。
与完整的STI依次对7个倍频带中的每个频带应用14个调制频率不同,STIPA方法同时对7个倍频带中的每个倍频带应用2个唯一的调制频率(表4),一共使用14个调制频率。STIPA只适用于男声频谱,一次测量需要15s~20s。同时STIPA结果也可以模拟使用背景噪声、不同语音声级对测量结果进行调整。
每个倍频带同时使用两个频率比为5的调制频率同时调制。由两个相位差180º的正弦波相加可知,每个调制频率的最佳调制指数为0.55.即这时候的调制函数可表示为:
表4 STIPA方法的调制频率
倍频带 Hz | 125 | 250 | 500 | 1000 | 2000 | 4000 | 8000 |
第1调制频率 Hz | 1.60 | 1.00 | 0.63 | 2.00 | 1.25 | 0.80 | 2.50 |
第2调制频率 Hz | 8.00 | 5.00 | 3.15 | 10.0 | 6.25 | 4.00 | 12.5 |
4. 直接法STITEL
与STIPA类似的是,STITEL也只需进行一次时间为15s~20s测量即可,但与STIPA不同的是,STITEL仅仅只有一个调制频率,因此其测试信号的调制函数形式与STIPA是相同的;同时STITEL不适宜模拟使用背景噪声、不同语音声级对测量结果进行调整。
表5 STITEL方法的调制频率
倍频带 Hz | 125 | 250 | 500 | 1000 | 2000 | 4000 | 8000 |
调制频率 Hz | 1.12 | 11.33 | 0.71 | 2.83 | 6.97 | 1.78 | 4.53 |
5. STI的测试方法
虽然STI测量经常以声学测量的形式进行。但实际上,看具体测试情况,STI的输入和输出信号可以是声,也可以是电。本部分首先介绍STI的输入和输出,然后介绍这些输入输出对应的测试方法。
1)声输入
这是STI最常见的输入情况。这时需要用一个小的(纸盆直径不超过100mm)、单声源发出测试信号。设置系统传声器位置处测试信号的声级为系统正常使用时的语音声级。如果测试信号和工作语音的声级没有进行良好的匹配,控制在仿真嘴或测试扬声器主辐射轴方向前1m处的等效连续声压级为60dB(A)。
同时测试信号的各个倍频的频谱需要按照表3.7.16进行调整。宽频带声级被归一化为A计权0dB。
表6 与A计权语音声级相关的各倍频带声级
倍频带 Hz | 125 | 250 | 500 | 1000 | 2000 | 4000 | 8000 | A计权 |
男声 dB | 2.9 | 2.9 | -0.8 | -6.8 | -12.8 | -18.8 | -24.8 | 0 |
女声 dB | - | 5.3 | -1.9 | -9.1 | -15.8 | -16.7 | -18.0 | 0 |
2)电输入
测试时,直接将信号输入至接入点,并调节接入点处STI测试信号的声级,使其与正常语音输入时的声级相同。
3)声输出
用传声器在正常的听音者位置和高度进行测量接收到的STI信号。
4)电输出
由于电输出不包含声场条件,因此电输出不能包含与听觉有关的效应。
表7 STI各种输入输出应用场合
输入输出形式 | 应用场合 |
声输入-声输出 | PA系统、厅堂STI、模拟自然声交流 |
电输入-声输出 | PA系统 |
声输入-电输出 | 有线和无线通讯系统 |
电输入-电输出 | 评价麦克风 |
表8 STI 评分系统
分类 | 标称STI值 | 典型应用示例 | 备注 |
A+ | >0.76 | 录音室 | 极高的言语可懂度,大部分环境很难达到 |
A | 0.74 | 大剧场、话剧院、法庭、议会、听力辅助系统 | 高的言语可懂度 |
B | 0.70 | ||
C | 0.66 | 大剧场、话剧院、法庭、议会、电话会议系统 | 高的言语可懂度 |
D | 0.62 | 报告厅、教室、音乐厅 | 较好的言语可懂度 |
E | 0.58 | 音乐厅、现代教堂 | 高品质PA(公共广播)系统 |
F | 0.54 | 购物中心PA系统、开放办公空间、VA(语音报警系统)系统、大教堂 | 较好品质PA系统 |
G | 0.50 | 购物中心、开放办公空间、VA系统 | VA系统的目标值 |
H | 0.46 | 声学条件较差空间的PA和VA系统 | VA系统的正常下限 |
I | 0.42 | 声学条件非常差空间的PA和VA系统 | |
J | 0.38 | 不宜用于PA系统 | |
U | <0.36 | 不宜用于PA系统 |