实际上说到底,语音识别就是让机器听懂你讲话。

这活儿,跟人类听东西不忒一样。人脑是个超算,瞬间就能把声音拆解、重组,还能顺便记住你没说过的意思;但电脑傻乎乎地只能按部就班地处理信号。 这就好比你问它“今天天气如何样”,它不知道哪天该下雨,就得听你嘴里蹦出的每一个字再听下一个字。它不懂“今天”指的是周六还是周中,它只知道你嘴里发“天”、“地”、“气”这些声音。

要是它只认连成一句话的流,那后面补个漏,它反而能听懂,这是人类的大智慧,但机器做不到。机器务必把一句讲话切成一个个点,每个点都是一个词,然后去对数据库里的词去比对。 这就好比你在餐厅点菜,你手里拿着一张菜单,上面写着“红烧肉”、“清炒时蔬”、“可乐”。你心里想:“我要红烧肉和清炒时蔬”。你点完第二道菜,发现少了一个“可乐”,但要是你能记住刚刚菜单上缺了哪,你只补这一个。机器可没这个记忆。它得重新计算,把刚刚没录进去的词找回来。

要是机器忒笨,刚刚漏了,后面补回来了,它就得从头启动算总数,那速度就慢得没法用。 故此,机器务必得把一段声音切成一个个小片段,专门存一堆词表,比如"hello"、"world"、"computer"。

这时候,机器得先问一句:“你刚刚说了啥?”要是出错了,它得赶紧重录,直到录对了。

这时候它活蹦乱跳地录,录到一半发现录错了,立马切回重新录。

这就好比你在银行办业务,机器是人工,你得盯着它,直到它唱对、录对为止。 但这有个大费事:人讲话的时候,语速、口音、背景音全不一样。机器得学会分辨这些。

比如有人讲话比较慢,有时候需求停顿一下,机器就得学会如何判断这一秒是不是该停顿,是不是该连起来读。

还有口音,不同地区的人声音差别大,机器得学会如何把这两个声音拼在一起,哪怕对方目前是反着说,机器也得反着转回来。 要做到这些,机器得用数学模型。它得把声音转换成数学上的波。

比方说,你讲话时,声带振动,空气震动,这个震动有频率、有波形。机器得把这些物理现象分析出来,算出代表你讲话特色的数字。 本来这算得挺好办,但难题是,你平时讲话时,环境吵不吵?你心情好不好?你是在宁静的会议室讲话,还是菜市场喊叫?机器得学会,当声音环境变了,它调整参数。

比方说,要是环境吵,它得把背景噪音压低,只保留你讲话的局部;要是环境静,它得把背景噪音放大,维持画面对比度。 还有一个难点是,有些词机器认不准。

比如"i", "me", "it",这几个字母发音彻底一样,机器如何可能区分?你只说"this is the cat", 机器就把"this"当成"the",出于听不出区别。

这时候得靠训练。机器得听几万段正常人的讲话数据,训练它的记忆。它得学会,要是一个词出现概率大,就认定是这个词;要是概率小,就认定是别词。 这学习本事就像人一样,看多了就懂了。

比如你想买辆宝马,机器看到“宝马”就猜你能想买宝马;你没说过车,它就知道“宝马”可能不是车。 不过,机器还在慢慢变智慧。

那会儿它只能听懂书写的字,目前能把口语也听懂了。但不能直接用,还得靠翻译软件

比如你回国,对着手机讲话,它得先把你的中文翻译成英文,你听英文,再把英文翻译成中文。

这中间多了好几层转换,误差自然大。 但最近,语音识别做得越来越好了。目前顶级算法能把口音认错的人数降到极少,对语速的变化也能适应。

比方说,有些软件能听懂你讲话的时候,要是喝了口水,声音会变哑,它就能自动把这几个字挖出来,修好再放回去,就像人自己一样。 并且,目前的 AI 还能从你的语音里分析你性格。

比方说,要是一个声音讲话语速快、语调上扬,可能代表你比较兴奋;声音慢、语调平,可能代表你比较稳重。但这只是推测,别忒当真,毕竟人讲话也有情绪波动,机器也得有耐心。 总的来说,语音识别这事儿,机器就是个听了无数遍的人,手里拿着录音笔,嘴里拿着字典,一边听一边记,一边比对一边猜。它离“彻底听懂”还差得远,但离“能用”已经好了大量。 举个例子,目前的语音助手,比如 Siri 要么小爱同学,它们就是靠这个原理跑起来的。当你问“我要去附近的咖啡店”,它得先听你讲话,把它拆解成“我要”、“去”、“附近”、“的”、“咖啡”、“店”。它得从数据库里找“咖啡店”这个词,要是没找到,它就得回听一句,问一句:“哪儿?”等你把它讲清楚,它才去搜索坐标,规划路线,告诉你“就在路口左转”。

这个过程里,它得反复核对,确保没有听错。 这还不够好,还得能跟你说其他语言。

比如你问“我要点咖啡”,它得先听懂“咖啡”,再转成英语"coffee",再查数据库,找出买咖啡豆的店,最终翻译成中文告诉你“去附近的咖啡店”。

这一套组合拳下来,机器才显得像人了。 但你想啊,机器要是确实全听懂了,那世界会如何变?或许人类就不用再背课文,也不用再背单词了。出于语音识别能自动学习我们的语言习惯。你讲话时,机器就能自动补全你漏掉的地方。

比方说,你忘了说“去”字,机器就能猜你指的是“去商场”,然后自动补全这句话。 自然,这也有风险。

要是机器听错了,后果不堪设想。

比方说,有些诈骗电话,机器当作是正常的闲聊,就给你推荐了个产品,最终你中了。

这时候,语音识别就是你的救命稻草,得赶紧把它关掉,重新听。 故此,语音识别是个技术活,也是个艺术活。它既要学懂物理世界,又要懂人心。它得精准,还得有耐心。

随着算法越来越强,未来的可能性无限大,但眼下,它还在慢慢爬坡,离完美还远着呢。