ASR语音识别的数据集有哪些?

ASR(Automatic Speech Recognition)自动语音识别技术需要使用大量的数据集进行模型训练和测试。本文将详细介绍ASR语音识别的数据集有哪些。

1. 基础数据集

1.1 常用数据集

目前使用较为广泛的ASR语音识别数据集主要有以下几个:

  • TED-LIUM Corpus – TED演讲语音的一个大规模开源数据集,包含超过2万段录音。
  • LibriSpeech – 从公共域音频书籍中自动选择的大规模音频语音数据集,包含多达数千小时的音频文件。
  • Speech Commands – 用于命令词识别的数据集,包含大约6,000个短语音片段,被分类为35个单词。
  • Common Voice – Mozilla基金会提供的一个较新的、众包式的ASR数据集,旨在提高讲话者的多样性和促进数据开源。它目前包含来自145个国家的441小时的音频数据。

1.2 国内常用数据集

国内常用的ASR语音识别数据集主要有以下几个:

  • AISHELL-1 – 由中国科学院自动化研究所制作的一个大型、标准化的普通话语音识别语料库。它包含大约170小时的音频数据。
  • THCHS-30 – 从50个发音者的普通话中提取的语音数据集,主要包括显著的音调变化、噪音和口音。它包含约30小时的音频数据。
  • Free ST Chinese Mandarin Corpus – 新加坡南洋理工大学制作的中国普通话语音识别语料库。它包括约1,200个人的约69小时的语音数据。

2. 领域专用数据集

除了常见的音频语音数据集之外,还有一些领域专用的ASR语音识别数据集。这些数据集通常是针对特定的行业或领域而制作的,包括语音识别转换、说话人识别、音频分类等。以下是一些常用的领域专用数据集的示例。

2.1 音频转换

音频转换是一种将人的语音转换为其他人或其他物品的声音的技术。以下是一些用于音频转换的数据集的示例:

  • VOiCES – 包含来自真实环境中的人类语音和机器振动声的大型语音数据集,主要用于声学和语言信号处理研究。
  • VCC2018 – 用于跨说话人语音转换的语音数据集,用于评估跨性别转换任务的性能。

2.2 说话人识别

说话人识别是一种识别人类语音声音的技术,以确定说话人的身份。以下是一些说话人识别数据集的示例:

  • VoxCeleb – 使用YouTube视频创建的说话人识别数据集,包含超过10,000个说话人的音频数据。
  • SpeakerID – 由美国语言数据中心小组收集的说话人识别数据集,包括将近1,000个说话人的音频文件。

2.3 音频分类

音频分类是一种将声音识别和划分类别的技术。以下是一些音频分类数据集的示例:

  • UrbanSound8K – 包含来自不同城市的真实环境录音,总共超过8,000个声音样本。
  • ESC-50 – 用于普通环境音频分类的数据集,包含50种不同类型的音频文件。

以上是ASR语音识别的数据集介绍,通过使用合适的数据集可以提高ASR的准确率和性能。