3.1.2 语音技术的发展 你可能不知道,从第一台“能听音”的电话问答机,到今天能帮你讲解展品、朗读文章甚至与人对话的AI语音助手,这背后经历了长达70多年的跨学科创新与技术演进。从最早的“听个大概”,到今天的“听懂你是谁、想干什么”,语音识别与语音合成技术已经成为人工智能发展中最贴近人类沟通方式的成果之一。 那这条从“听见”到“听懂”的技术成长之路,又是如何一步步走来的呢? (1)早期探索阶段:让机器“听见”人的声音(1950–1970年代) 第一声“Hello”:Audrey 系统诞生 1952年,美国贝尔实验室研制出了世界上第一个语音识别系统——Audrey。这个系统的本领不大,只能识别“0到9”这10个数字,还只能识别固定说话人。但它是人类第一次让机器“听懂”了人的声音! 声码器合成“机械语音” 同一时期,研究人员也在尝试合成语音。比如声码器(Vocoder)技术,它能模拟嘴巴发音的过程来“拼”出元音和辅音,听上去像是在听“机器人在读课文”。 “模板对比法”的尝试: 到了1960年代,研究者尝试用一种叫动态时间规整(DTW)的方法来比对声音形状,并结合矢量量化(VQ)对声音分类。这种技术的思路是:机器先把你的声音和一套“标准模板”比一比,看看像不像。但问题也很明显——说话快慢不一、方言口音一多,机器就“听懵了”。 (2)统计建模崛起:听懂“整句话”的意思(1980–2000年代) 1980年代,科学家引入了统计学模型——高斯混合模型(GMM)与隐马尔可夫模型(HMM)。它不再靠“死记模板”,而是靠数学概率判断你说了什么。就像一个“会猜测”的学生,能听出完整的句子了! 听电话的机器人:电话客服系统上线 IBM 和 AT&T 等公司纷纷开发出基于HMM的大词汇语音识别系统,用在电话客服中,用户不再需要按键,只要说:“我要查余额”,机器人就能理解。 第一代“合成人声”设备问世 1987年,MIT的DECTalk 推出了接近自然语音的合成系统,连著名物理学家霍金的语音合成器就是它的“粉丝”! (3)神经网络初试:尝试“学会听得更准”(2000–2012年代) 人工神经网络上场 科学家引入了人工神经网络(ANN)与 GMM-HMM 搭配使用,希望提升非线性特征识别能力,就像给“耳朵”装上了一块“思维芯片”。 边界裁判员:SVM助力分词 支持向量机(SVM)被用来判断不同单词的边界,尤其在语速快的时候表现不错。不过这些方法仍然依赖人工设计特征,遇到复杂语境容易“卡壳”。 (4)深度学习革命:让机器“听懂人话”(2012–至今) DNN接管识别任务:深度听觉的崛起 2012年以后,深度神经网络(DNN)开始替代GMM模型。它不再依赖人手设计规则,而是能自己“听出”哪些声音特征最重要,就像学会了“用心听”。 记忆力选手LSTM闪亮登场 循环神经网络(RNN)和长短时记忆网络(LSTM)帮助模型记住讲话内容的上下文,就像一位能记住前文、推测后意的好听众。在Google Now、Siri等语音助手中都能找到它们的身影。 WaveNet:合成语音听不出真假 2016年,Google 推出了 WaveNet。这是一种基于CNN的语音合成方法,生成的语音自然到足以“骗过人耳”,第一次让合成语音“像真人说话”。 (5)端到端建模与注意力机制:一步生成“完整句子”(2016–至今) CTC & Transformer:让识别更顺畅 连接时序分类(CTC)模型让机器不再“对齐每个字”,而是一次性学习整句话。随后,自注意力机制的Transformer彻底改变了语音识别的方式,能听得更快、更准、反应更迅速。 Wav2Vec 2.0:聪明的“自学型听众” Meta的Wav2Vec 2.0模型能“自己听音频、自己找规律”,再学会用这些知识去识别人类语言。即使没听过的语言,也能通过迁移学习做得不错! 图文并茂,动画

视频信息