自然語言語音理解系統-百科詞條

　　人和電腦之間用自然語言口語語音對話的通信系統。從20世紀60年代初開始研究，10多年間一直停留在用模式識別的方法辨認單詞的語音識別，即在電腦裏儲存某些單詞的聲學模式，用作匹配輸入的語音信號。由於語音識別無法使電腦辨認連續語流中的語音變化，以及人和人之間、同一個人先後發音之間的差別，也不能排除雜訊幹擾，因此效果不大。

　　70年代初期認識到，必須綜合應用語言學知識來研究電腦對連續語流的語音理解。1971年美國國防部高級級研究計劃中心為語音理解研究設立基金，要求在5年之內取得突破。具體指標是使計算機能理解特定范圍內的正常口語句子（連續語音），單詞不少於1 000，錯誤不超過10％。到1976年先後建成瞭一些英語語音理解的實驗系統，它們能在有限的詞匯、句法和特定的主題范圍內理解英語口語句子。其中有代表性的是美國卡爾奈吉–梅隆大學的HEARSAY系統和HARPY系統，BBN公司的HWIM系統。這些系統的設計互不相同，各自采用瞭特定的技術安排，但總的方法是一致的，即語音、詞匯、句法、語義、語用的分析同時進行，互為補充，以確定輸入句的內容。一般的處理程序是分析輸入語音信號的聲學物理特征，根據音系規則歸納音位、音位變體、連續音變和語音省略；以切分音節；根據構詞規則作出單詞假設，稱為“底端分析”；應用句法、語義、語用規則和主題知識，根據上下文預測輸入句的內容，稱為“頂端分析”。底端無需識別每一個語音信號，模糊不清的可以跳過；隻要能提出句中某幾個單詞的假設，就能由頂端根據詞的搭配、句法組合和主題知識前後左右加以推斷，建立句中單詞序列的一種或幾種假設，再用底端的語音數據核實，擇優選用。這種上下結合的分析方法是一個重要的突破，取得瞭明顯的效果。據HARPY系統的實驗，底端憑語音數據切分單詞的準確率隻有42％，而語音、句法、語義綜合分析的準確率卻高達97％。

　　70年代後期和80年代初期，語音理解向縱深探索，開始設計某些專用性系統，例如澳大利亞堪培拉高等教育學院信息科學學校正在研制的FOPHO系統，輸入澳大利亞英語口語語音，計算機經過識別、理解能轉寫為音標顯示輸出，為教學和科研服務。進入21世紀，隨著計算機技術和人工智能技術的發展，自然語言語音理解系統的研究和應用不斷取得進展，例如系統在電話信道上的成功應用等。關於漢語語音理解的研究，見漢語語音理解系統。

推薦書目

　BARR A, FEIGENBAUM E A. The Handbook of Artificial Intelligence: Vol. 1. Los Altos: William Kaufman, Inc., 1981.