ASR语音识别(Automatic Speech Recognition)的评价指标一般包括以下几个方面:
- 识别准确率(Word Error Rate, WER)
WER是ASR识别准确性的一种主要评价指标,它衡量的是识别结果与标准答案之间的差异。WER越低,说明ASR识别准确率越高。具体计算公式如下:
$$WER = \frac{S+D+I}{N} $$
其中,$S$表示替换(substitution)的次数,即识别结果与标准答案不同的单词数量;$D$表示删除(deletion)的次数,即标准答案中有而识别结果中没有的单词数量;$I$表示插入(insertion)的次数,即识别结果中有而标准答案中没有的单词数量;$N$表示标准答案中单词的总数。
举个例子,假设标准答案是“i have a dream”,而ASR的识别结果是“i have the dream”,则有$S=1$,$D=0$,$I=1$,$N=4+1=5$,因此$WER=\frac{S+D+I}{N} = \frac{1+0+1}{5} = 0.4$。
- (部分)识别准确率(Correctness Rate, CR)
CR与WER类似,但它是只考虑部分正确的情况。具体计算公式如下:
$$CR = \frac{N – D – I}{N}$$
其中,$N$、$D$、$I$的含义与WER相同。CR越高,说明ASR对一些部分的信息是有准确识别的能力的,而不仅仅是错了或对了。
例如,如果标准答案是“i have a dream”,而ASR的识别结果是“i have a stream”,则有$S=1$,$D=0$,$I=0$,$N=4+1=5$,因此$CR=\frac{N-D-I}{N}=\frac{4}{5}=0.8$。
- 识别速度
识别速度(Recognition Speed)指ASR识别一段语音所需的时间。通常,ASR在一定时间内识别更多的语音是更好的。
例如,ASR识别1小时的语音文件需要100秒,而另一个ASR识别2小时的语音文件需要200秒,则前一个ASR的识别速度更快。
总的来说,ASR的评价指标主要是围绕识别准确率、部分识别准确率和识别速度展开的,不同应用场景中的重要指标可以有所不同。