语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率)

匿名 (未验证) 提交于 2019-12-03 00:19:01

实际工作中,一般识别率的直接指标是“WER(词错误率,Word Error Rate)”

为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。

公式为:

Substitution――替换

Deletion――删除

Insertion――插入

N――单词数目

SER

SER,SER表述为句子中如果有一个词识别错误,那么这个句子被认为识别错误,句子识别错误的的个数,除以总的句子个数即为SER

其计算公式如下所示:

  1. WER可以分男女、快慢、口音、数字/英文/中文等情况,分别来看。

  2. 因为有插入词,所以理论上WER有可能大于100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。

  3. 站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”,即“识别(正确)率等于96%”这种,实际工作中,这个应该指向“SER(句错误率,Sentence Error Rate)”,即“句子识别错误的个数/总的句子个数”。不过据说在实际工作中,一般句错误率是字错误率的2~3倍,所以可能就不怎么看了。

AI产品经理需要了解的语音交互评价指标
语音识别评估标准-WER

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!