ASR语音识别的输出格式有多种,常见的有文本(text)格式、时间戳(time-stamped)格式、标记化(tokenized)格式和音素(phoneme)格式等。以下是对这几种输出格式的详细讲解:
- 文本(text)格式
文本格式的输出是将语音转化成对应的文本返回,可以说是最常见的格式。例如,当我们通过语音输入数字“1000”时,ASR会返回文本“one thousand”。此外,文本格式的输出还可以包含声调、标点符号等。
示例1:
- 用户说:“我想听周杰伦的歌”
- ASR输出:“我想听周杰伦的歌”
示例2:
- 用户说:“请在明天下午三点钟给我回电”
-
ASR输出:“请在明天下午3点给我回电。”
-
时间戳(time-stamped)格式
时间戳格式的输出是在文本的基础上,还包含输出的文本在语音输入中出现的时间点(即时间戳)。这种格式常用于语音翻译或语音字幕等场景。
示例:
- 用户说:“你好,我想预订一张明天下午三点的火车票”
- ASR输出:“你好,我想预订一张明天下午3点的火车票”
-
ASR时间戳输出:
[0.00, 0.50]:你好,
[0.50, 0.82]:我想预订一张
[0.82, 1.45]:明天下午3点的
[1.45, 1.78]:火车票 -
标记化(tokenized)格式
标记化格式的输出是将文本划分成一系列标记(token),然后返回每个标记的信息,包括标记本身和标记在语音输入中的时间戳。
示例:
- 用户说:“请给我播放一首周杰伦的七里香”
-
ASR标记化输出:
[{‘token’: ‘请’, ‘start_time’: 0.00, ‘end_time’: 0.26},
{‘token’: ‘给’, ‘start_time’: 0.26, ‘end_time’: 0.47},
{‘token’: ‘我’, ‘start_time’: 0.47, ‘end_time’: 0.68},
{‘token’: ‘播放’, ‘start_time’: 0.68, ‘end_time’: 1.10},
{‘token’: ‘一首’, ‘start_time’: 1.10, ‘end_time’: 1.47},
{‘token’: ‘周杰伦’, ‘start_time’: 1.47, ‘end_time’: 2.11},
{‘token’: ‘的’, ‘start_time’: 2.11, ‘end_time’: 2.32},
{‘token’: ‘七里香’, ‘start_time’: 2.32, ‘end_time’: 3.04}] -
音素(phoneme)格式
音素格式的输出是将输入的语音划分成一系列音素(phoneme),而不是文本或标记。这种输出格式的应用较为特殊,例如在发音矫正或语音合成等领域。
示例:
- 用户说:“Play some music”
- ASR音素输出:P L EY S AH M Y UW Z IH K