在日常作业、日子中,语音辨认技能作为根底服务,越来越多的出现在咱们周围,比方智能音箱、会议记录、字幕生成等等。

作为一项现已很老练AI技能,市面上许多厂商都会供给语音辨认服务,对外宣称的辨认准确性也很高。

关于事务侧的咱们,其实更关怀的是在咱们特定事务场景中的体现如何。

本文将带着咱们从原理到实践了解语音辨认作用评测的方方面面。

语音辨认,又称语音转录文本,是将语音辨认成文本的技能。英文名称 Automatic Speech Recognition,一般缩写为 ASR(下文统一用 ASR 指代)。

显然,一个 ASR 服务的好坏,能够用语音辨认出的文本准不准来衡量。

而这个准不准,业界一般会用一个目标来量化:字正确率(Word Correct,W.Corr),又称辨认正确率。

要理解字正确率,咱们首先要搞清另一个目标 WER。

一、目标原理

1.1 WER 公式

WER(Word Error Rate),即词过错率,是一项用于评价 ASR 作用的重要目标,用来衡量猜测文本与标示文本之间的过错率。

因为英文句子中最小单位是词(Word),而中文最小单位是汉字(Character),因而在中文语音辨认使命中,运用字错率(Character Error Rate, CER)来衡量 ASR 辨认作用。

两者的核算方法相同,咱们一般在中文范畴,也会运用 WER 表明该目标。

WER 的核算公式如下

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

#Deletions:删去过错字符

#Insertions:刺进过错字符数

#Substitutions:替换过错字符数

#ReferenceWords:总字符数

1.2 三类过错

整体来看,公式分母是总的字符数,分子是三类过错字符数的加和,下面咱们看下这三类过错的意义

为便于描述,约定如下

REF:语音对应的正确文本内容,又称标示文本,即 Reference

HYP:语音经过 ASR 服务辨认出的文本,即 Hypothesis

删去过错

语音转录文本过程中,原文中原本包括的文字,ASR 没有辨认出来。例子:

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

语音“你吃了吗”,辨认成“你吃了”,其间的“吗”字没有辨认出来。

刺进过错

语音转录文本过程中,原文中未包括的文字,比方噪音什么的,被 ASR 误辨认成文字了。例如:

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

语音“你吃了吗”,辨认成“你吃了吗呀”,其间“呀”字是误辨认出的。

替换过错

语音转录文本过程中,原文中包括的文字,被 ASR 过错辨认成了其他的文字。例如:

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

语音“你吃了吗”,辨认成“你吃了么”,其间“吗”字辨认错了,变成了“么”字。

总结一下

删去过错:辨认少了,语音中原本有的字给漏掉了。

刺进过错:辨认多了,语音中没有的字辨认出来了。

替换过错:辨认错了,语音中的字辨认成其他字了。

理解了这三类过错,回头咱们再看上面各个字段,就很好理解了

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

综上,可见

WER 指的是,经过 ASR 辨认出的成果文本中,包括的各类过错(删去、刺进、替换)的字符数,与原始文本总数比较,所占的份额值。

现在咱们现已理解了 WER 这个目标,接下来咱们看下经过什么方法进行核算,才干得出这些值。

1.3 修改间隔

在辨认成果文本和标示文本给出的情况下,#ReferenceWords 总字符数很简单得到,而三类过错的数量,咱们需求经过“修改间隔”的引入来核算。

WER 公式中的分子部分,也便是

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

即为辨认成果文本到标示文本的修改间隔。

也便是咱们只要求得辨认成果文本,到标示文本的修改间隔,除以标示文本字符数,就能够得出 WER 目标了。

下面咱们具体看下什么是修改间隔,他是怎么核算得到的。

修改间隔(Edit Distance),是由俄罗斯科学家弗拉基米尔莱文斯坦(Vladimir Levenshtein)于 1965 年提出,又被称为莱温斯坦间隔(Levenshtein distance)。

修改间隔用于衡量两个字符串之间的类似度,被广泛运用于 DNA 序列比照、拼写检测、过错率核算等范畴。

丈量方法是看至少需求多少次处理,才干将一个字符串转变为另一个字符串。其间每次处理,称作一次修改操作,包括三种:

  • 删去,删去一个字符
  • 刺进,刺进一个字符
  • 替换,替换一个字符

能够看到,这儿的修改操作,正好对应了上述评论的三类过错。

修改间隔越短,两个文本越类似;修改间隔越长,两个文本越不同。

修改间隔能够经过如下公式核算得到:

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

经过上述公式,核算出辨认成果文本,变换到到标示文本的最小修改操作次数,即可得到其修改间隔。

了解算法的同学应该知道,经过调整不同操作的序列和数量,核算总次数的最小值,是一个典型的动态规划(Dynamic Programming,简称 DP)问题。

不过这个现已超出本文主题的范围,对 DP 算法感兴趣的同学,能够参阅如下资料进一步了解:

  • 修改间隔算法与运用场景

  • 经典动态规划:修改间隔

  • 72. Edit Distance(调查修改间隔的编程题,了解编程的同学能够挑战下)

1.4 WER 核算

小结一下,核算 WER,能够核算从辨认成果到标示文本的修改间隔,再带入下列公式得到

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

其间各参数如下

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

1.5 字正确率

好,现在咱们回到最初提到的字正确率(Word Correct),这个目标指什么,和 WER 又是什么关系呢?

字正确率和 WER 比较,核算中忽略了刺进过错字符数,也便是没有把刺进过错归入过错统计傍边。

在实践体系中,上游 ASR 的辨认成果,会被下游使命剖析模块进一步处理,刺进过错的文本会被处理掉,所以只需调查语音中包括的文本,被正确辨认出的份额即可,也便是字正确率。

因而,业界厂商一般也把字正确率,与 WER 一同供给,用于衡量 ASR 辨认作用。

1.6 开源东西

到此,咱们现已理解了 WER 目标、字正确率目标,以及背面的原理与算法。

在产业界,为了避免不同实现造成的目标数据不共同的情况,让各个厂商便于比照各自的数据,咱们一般选用开源东西来核算。

这儿,咱们运用的是美国国家技能研究所 NIST 开源的 Sclite 作为核算东西。

东西经过输入 辨认成果文本、标示文本,能够核算得出对应的 WER,三类过错数及对应的详情。

东西运用

经过供给满意特定格式(trn)的辨认成果文件、标示文本文件,sclite 能够核算生成包括 WER、字正确率,以及三类过错信息在内的详细评测陈述(dtl)。

a. 调用指令示例

# 指令格式 sclite -r reffile [ fmt ] -h hypfile [ fmt [ title ] ] OPTIONS
./bin/sclite -r /corpus/audio_file/16k_60s_all_100.trn trn -h /data/output/16k_zh-PY-16k_60s_all_100.trn trn -i spu_id -o dtlb

标示文件:/corpus/audio_file/16k_60s_all_100.trn

辨认成果:/data/output/16k_zh-PY-16k_60s_all_100.trn

b. 评测陈述示例(dtl)

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

附:感兴趣的同学能够经过如下官网链接获取 NIST Tools

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

二、评测实践

网上盛行一句话,知道了许多道理,却依然过欠好这一生。知易行难。

同样,咱们尽管了解了 ASR 作用目标、原理以及开源东西,但或许依然感觉无处下手。

为了降低测验门槛,方便客户简单方便地评价自己事务场景在 腾讯云 ASR 服务 上的辨认作用,腾讯云 AI 运用团队打造了 AI Studio 一键评测东西,让用户能够零根底完结评测。

现在处于内测过程中,让咱们看下如何运用。

2.1 界面预览

AI Studio 官网链接:aistudio.cloud.tencent.com/

打开官网,看到如下页面。

点击右上角【登录】,会跳转到腾讯云官网的登录页面,运用云官网账号登录。

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

榜首栏,是评测服务选项,这儿咱们挑选【语音辨认】,最右侧的下拉框中包括两个语音辨认接口:录音文件辨认、实时语音辨认;

因为算法模型针对这两个事务场景,分别做了针对性优化,这儿只需挑选自己运用的接口即可。

第二栏,阐明了如何创立测验集,以及标示文件时的注意事项。

第三栏,是提交测验使命时,需求挑选的字段,这儿保持和测验音频元信息共同即可。

2.2 操作指引

下面咱们经过一个实例,展现下如果进行一次评测流程。

a. 预备评测语料

点击页面模板链接,检查测验集的格款式例:

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

测验语料包括两部分:

  • 音频文件:事务场景中搜集的音频数据,采样率为 8k 或 16k
  • 标示文件:经过人工方法,将音频中包括的人声讲话,记录到文本文件中

其间,标示文件中数字,需求标识为中文大写形式,例如文本“小明考了98分”,需求标示为“小明考了九十八分”

其他注意事项,参阅页面:

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

b. 提交评测使命

下面新建评测使命

榜首步:挑选相应参数

依据音频信息,挑选对应的辨认语言、音频采样率

不同引擎类型,已针对特定场景进行优化,在匹配场景下具有更好的辨认作用,这儿挑选最适合的引擎类型即可,如下

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

第二步:上传标示测验集

将预备好的测验集,压缩打包,经过页面上传

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

第三步:检查标示测验集内容

这儿体系会解析上传测验集,将音频与标示文本对应后,展现在页面上,供用户进行检查承认(因为测验成果与标示文本的准确性直接相关,需求保证标示文件的正确)。

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

点击承认提交,完结评测使命的创立。

c. 获取评测成果

使命执行过程中,可经过评测页底部的评测使命办理列表,检查使命状态。

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

使命状态显示【成功】后,点击右侧【检查成果】,即可检查评测成果:

AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

能够看到评测作用目标字准率(即上述字正确率)、WER、刺进/删去/替换过错率。

同时,也可点击下面的下载地址,获取评测陈述和辨认成果文件,进行进一步剖析。

附录

  • AI Studio 官网地址:aistudio.cloud.tencent.com/
  • 腾讯云 ASR 官方文档:cloud.tencent.com/document/pr…
  • NIST 开源东西:www.nist.gov/itl/iad/mig…