ASR语音识别的历史发展如何？ - BBSMAP

ASR语音识别的历史发展如何？

Post published:2023年5月1日
Post category:人工智能

ASR，全称为Automatic Speech Recognition，即自动语音识别。它是在语音信号技术的支持下，将人类语音转化为文本的一种技术。

ASR技术从上世纪60年代开始研究，在技术、算法、系统等方面都经历了重大的进步和演进。以下是ASR技术历史发展的具体过程：

统计语言模型
统计语言模型（SLM）是 ASR 技术的关键。1960 年代，统计语言模型的出现使得计算机可以学习语言的规律。具体地，统计语言模型使用贝叶斯方法，通过分析文本分布来学习语言的规律。
隐马尔可夫模型
隐马尔可夫模型（HMM）是ASR技术中的核心方法，它基于位于时域上的状态转移来推测说话者的语音内容，从而将语音信息转化为文本。20 世纪 70 年代，HMM 正如火如荼的用于语音技术中。
基于深度学习的语音识别
20 世纪 90 年代末期，随着神经网络、深度学习等技术的发展，基于深度学习的语音识别系统逐步成为主流。通过建立多层神经网络，深度学习技术可以快速有效地提高 ASR 的准确度。
基于大数据的语音识别
随着大数据技术的发展，以及互联网语音数据的爆发式增长，基于大数据的语音识别成为可行的选择。大数据技术可以对海量语音数据进行训练、测试和推理，提高 ASR 的准确率和应用效果。

下面是两个 ASR 技术应用示例：

Siri 语音助手
Siri 是苹果公司旗下的语音助手，它利用ASR技术将语音指令转换为计算机可以识别的指令。用户可以通过语音指令实现打电话、发送信息、查找资料等功能，极大地方便了人们的生活。
智能家居
智能家居是一种基于互联网技术的智能家庭系统，通过互联网和语音识别技术，实现家居设备的自动化控制。用户可以通过语音指令控制家庭设备的开关、温度、照明等，实现智能化、便捷化的生活方式。

Tags: 人工智能