ASR(Automatic Speech Recognition)自动语音识别技术需要使用大量的数据集进行模型训练和测试。本文将详细介绍ASR语音识别的数据集有哪些。
1. 基础数据集
1.1 常用数据集
目前使用较为广泛的ASR语音识别数据集主要有以下几个:
- TED-LIUM Corpus – TED演讲语音的一个大规模开源数据集,包含超过2万段录音。
- LibriSpeech – 从公共域音频书籍中自动选择的大规模音频语音数据集,包含多达数千小时的音频文件。
- Speech Commands – 用于命令词识别的数据集,包含大约6,000个短语音片段,被分类为35个单词。
- Common Voice – Mozilla基金会提供的一个较新的、众包式的ASR数据集,旨在提高讲话者的多样性和促进数据开源。它目前包含来自145个国家的441小时的音频数据。
1.2 国内常用数据集
国内常用的ASR语音识别数据集主要有以下几个:
- AISHELL-1 – 由中国科学院自动化研究所制作的一个大型、标准化的普通话语音识别语料库。它包含大约170小时的音频数据。
- THCHS-30 – 从50个发音者的普通话中提取的语音数据集,主要包括显著的音调变化、噪音和口音。它包含约30小时的音频数据。
- Free ST Chinese Mandarin Corpus – 新加坡南洋理工大学制作的中国普通话语音识别语料库。它包括约1,200个人的约69小时的语音数据。
2. 领域专用数据集
除了常见的音频语音数据集之外,还有一些领域专用的ASR语音识别数据集。这些数据集通常是针对特定的行业或领域而制作的,包括语音识别转换、说话人识别、音频分类等。以下是一些常用的领域专用数据集的示例。
2.1 音频转换
音频转换是一种将人的语音转换为其他人或其他物品的声音的技术。以下是一些用于音频转换的数据集的示例:
2.2 说话人识别
说话人识别是一种识别人类语音声音的技术,以确定说话人的身份。以下是一些说话人识别数据集的示例:
- VoxCeleb – 使用YouTube视频创建的说话人识别数据集,包含超过10,000个说话人的音频数据。
- SpeakerID – 由美国语言数据中心小组收集的说话人识别数据集,包括将近1,000个说话人的音频文件。
2.3 音频分类
音频分类是一种将声音识别和划分类别的技术。以下是一些音频分类数据集的示例:
- UrbanSound8K – 包含来自不同城市的真实环境录音,总共超过8,000个声音样本。
- ESC-50 – 用于普通环境音频分类的数据集,包含50种不同类型的音频文件。
以上是ASR语音识别的数据集介绍,通过使用合适的数据集可以提高ASR的准确率和性能。