ASR语音识别的输出格式有哪些?

ASR语音识别的输出格式有多种,常见的有文本(text)格式、时间戳(time-stamped)格式、标记化(tokenized)格式和音素(phoneme)格式等。以下是对这几种输出格式的详细讲解:

  1. 文本(text)格式

文本格式的输出是将语音转化成对应的文本返回,可以说是最常见的格式。例如,当我们通过语音输入数字“1000”时,ASR会返回文本“one thousand”。此外,文本格式的输出还可以包含声调、标点符号等。

示例1:

  • 用户说:“我想听周杰伦的歌”
  • ASR输出:“我想听周杰伦的歌”

示例2:

  • 用户说:“请在明天下午三点钟给我回电”
  • ASR输出:“请在明天下午3点给我回电。”

  • 时间戳(time-stamped)格式

时间戳格式的输出是在文本的基础上,还包含输出的文本在语音输入中出现的时间点(即时间戳)。这种格式常用于语音翻译或语音字幕等场景。

示例:

  • 用户说:“你好,我想预订一张明天下午三点的火车票”
  • ASR输出:“你好,我想预订一张明天下午3点的火车票”
  • ASR时间戳输出:
    [0.00, 0.50]:你好,
    [0.50, 0.82]:我想预订一张
    [0.82, 1.45]:明天下午3点的
    [1.45, 1.78]:火车票

  • 标记化(tokenized)格式

标记化格式的输出是将文本划分成一系列标记(token),然后返回每个标记的信息,包括标记本身和标记在语音输入中的时间戳。

示例:

  • 用户说:“请给我播放一首周杰伦的七里香”
  • ASR标记化输出:
    [{‘token’: ‘请’, ‘start_time’: 0.00, ‘end_time’: 0.26},
    {‘token’: ‘给’, ‘start_time’: 0.26, ‘end_time’: 0.47},
    {‘token’: ‘我’, ‘start_time’: 0.47, ‘end_time’: 0.68},
    {‘token’: ‘播放’, ‘start_time’: 0.68, ‘end_time’: 1.10},
    {‘token’: ‘一首’, ‘start_time’: 1.10, ‘end_time’: 1.47},
    {‘token’: ‘周杰伦’, ‘start_time’: 1.47, ‘end_time’: 2.11},
    {‘token’: ‘的’, ‘start_time’: 2.11, ‘end_time’: 2.32},
    {‘token’: ‘七里香’, ‘start_time’: 2.32, ‘end_time’: 3.04}]

  • 音素(phoneme)格式

音素格式的输出是将输入的语音划分成一系列音素(phoneme),而不是文本或标记。这种输出格式的应用较为特殊,例如在发音矫正或语音合成等领域。

示例:

  • 用户说:“Play some music”
  • ASR音素输出:P L EY S AH M Y UW Z IH K