人和電腦之間用自然語言口語語音對話的通信系統。從20世紀60年代初開始研究,10多年間一直停留在用模式識別的方法辨認單詞的語音識別,即在電腦裏儲存某些單詞的聲學模式,用作匹配輸入的語音信號。由於語音識別無法使電腦辨認連續語流中的語音變化,以及人和人之間、同一個人先後發音之間的差別,也不能排除雜訊幹擾,因此效果不大。

  70年代初期認識到,必須綜合應用語言學知識來研究電腦對連續語流的語音理解。1971年美國國防部高級級研究計劃中心為語音理解研究設立基金,要求在5年之內取得突破。具體指標是使計算機能理解特定范圍內的正常口語句子(連續語音),單詞不少於1 000,錯誤不超過10%。到1976年先後建成瞭一些英語語音理解的實驗系統,它們能在有限的詞匯、句法和特定的主題范圍內理解英語口語句子。其中有代表性的是美國卡爾奈吉–梅隆大學的HEARSAY系統HARPY系統,BBN公司的HWIM系統。這些系統的設計互不相同,各自采用瞭特定的技術安排,但總的方法是一致的,即語音、詞匯、句法、語義、語用的分析同時進行,互為補充,以確定輸入句的內容。一般的處理程序是分析輸入語音信號的聲學物理特征,根據音系規則歸納音位、音位變體、連續音變和語音省略;以切分音節;根據構詞規則作出單詞假設,稱為“底端分析”;應用句法、語義、語用規則和主題知識,根據上下文預測輸入句的內容,稱為“頂端分析”。底端無需識別每一個語音信號,模糊不清的可以跳過;隻要能提出句中某幾個單詞的假設,就能由頂端根據詞的搭配、句法組合和主題知識前後左右加以推斷,建立句中單詞序列的一種或幾種假設,再用底端的語音數據核實,擇優選用。這種上下結合的分析方法是一個重要的突破,取得瞭明顯的效果。據HARPY系統的實驗,底端憑語音數據切分單詞的準確率隻有42%,而語音、句法、語義綜合分析的準確率卻高達97%。

  70年代後期和80年代初期,語音理解向縱深探索,開始設計某些專用性系統,例如澳大利亞堪培拉高等教育學院信息科學學校正在研制的FOPHO系統,輸入澳大利亞英語口語語音,計算機經過識別、理解能轉寫為音標顯示輸出,為教學和科研服務。進入21世紀,隨著計算機技術和人工智能技術的發展,自然語言語音理解系統的研究和應用不斷取得進展,例如系統在電話信道上的成功應用等。關於漢語語音理解的研究,見漢語語音理解系統。

  

推薦書目

 BARR A, FEIGENBAUM E A. The Handbook of Artificial Intelligence: Vol. 1. Los Altos: William Kaufman, Inc., 1981.