ASR语音识别的数据集有哪些？

ASR（Automatic Speech Recognition）自动语音识别技术需要使用大量的数据集进行模型训练和测试。本文将详细介绍ASR语音识别的数据集有哪些。

1. 基础数据集

1.1 常用数据集

目前使用较为广泛的ASR语音识别数据集主要有以下几个：

TED-LIUM Corpus – TED演讲语音的一个大规模开源数据集，包含超过2万段录音。
LibriSpeech – 从公共域音频书籍中自动选择的大规模音频语音数据集，包含多达数千小时的音频文件。
Speech Commands – 用于命令词识别的数据集，包含大约6,000个短语音片段，被分类为35个单词。
Common Voice – Mozilla基金会提供的一个较新的、众包式的ASR数据集，旨在提高讲话者的多样性和促进数据开源。它目前包含来自145个国家的441小时的音频数据。

1.2 国内常用数据集

国内常用的ASR语音识别数据集主要有以下几个：

AISHELL-1 – 由中国科学院自动化研究所制作的一个大型、标准化的普通话语音识别语料库。它包含大约170小时的音频数据。
THCHS-30 – 从50个发音者的普通话中提取的语音数据集，主要包括显著的音调变化、噪音和口音。它包含约30小时的音频数据。
Free ST Chinese Mandarin Corpus – 新加坡南洋理工大学制作的中国普通话语音识别语料库。它包括约1,200个人的约69小时的语音数据。

除了常见的音频语音数据集之外，还有一些领域专用的ASR语音识别数据集。这些数据集通常是针对特定的行业或领域而制作的，包括语音识别转换、说话人识别、音频分类等。以下是一些常用的领域专用数据集的示例。

2.1 音频转换

音频转换是一种将人的语音转换为其他人或其他物品的声音的技术。以下是一些用于音频转换的数据集的示例：

2.2 说话人识别

说话人识别是一种识别人类语音声音的技术，以确定说话人的身份。以下是一些说话人识别数据集的示例：

2.3 音频分类

音频分类是一种将声音识别和划分类别的技术。以下是一些音频分类数据集的示例：

以上是ASR语音识别的数据集介绍，通过使用合适的数据集可以提高ASR的准确率和性能。