研究語言通信過程中有關語言信號的產生、傳遞、接收和處理中聲學問題的學科。語言聲學有時也用於專指有關語音產生過程的聲學研究。

  發展簡史 17世紀末人們就認識到,噪音是由聲帶振動對通過聲門的氣流加以調節產生的。匈牙利工程師W.馮肯培楞18世紀曾設計建造瞭一架會說話的機器,還著有《人類言語機制》一書。稍後後德國的生理學傢、物理學傢H.von亥姆霍茲首先闡明瞭內耳的耳蝸是如何工作的,他還利用足夠數量的音叉使其在選定的一些頻率上振動用來合成元音。20世紀30年代利用電子線路制作的連續言語合成器和語音編碼裝置聲碼器出現。40年代一種可對聲音進行三維頻譜分析的儀器——聲譜儀問世。這種儀器也叫語圖儀。它原是為把語音變成可視的圖形,幫助聾人理解電話。這種燒在特殊的熱敏紙上的語音的三維譜圖叫語圖,又稱為“可見言語”。語圖儀的出現是語言聲學發展史上的一個重要的裡程碑。此外,自1876年電話發明以來,電話通信的言語可懂度問題和言語知覺研究,受到瞭聲學傢、心理學傢和電信工程師的普遍註意。實驗證明,通過幾個小時的訓練,使通話人與通信設備取得最佳匹配所得到的通信頻率的提高,比一個工程師用幾年時間改進傳聲器設計的效果還好,所以言語通信系統應該包括說話人和聽話人在內。由於電子技術、計算技術和信息技術發展所提出的應用要求和技術支持,各種人–機語音通信裝置不斷得到應用,助聽、助講裝置日益推廣普及。

  研究內容 語言聲學的多學科交叉與相互滲透的特征,主要體現在他的研究內容上。

  語音的產生 研究語音發音過程和各種語音產生的機理,不但有助於改善言語通信系統的設計和提高其工作性能,亦是進行語音合成、建造會說話機器所必須的內容。語音產生的過程可分成三部分:①聲源激勵。發元音和輔音時聲帶振動。這是由肺部呼出的氣流,經聲門在伯努利效應作用下,聲帶作準周期振動,產生脈沖激勵。發清輔音的發音器官的某部分在聲道中對氣流形成阻塞,由於阻塞方式和持續時間的不同,使氣流產生各種不同的噪聲激勵。②聲道濾波。從聲門到雙唇和鼻孔的聲道,在聲源激勵下,在一系列頻率(簡正頻率)上產生共振,頻率與振幅的分佈模與聲道的形狀(發什麼音)有直接關系。聲道可用多節不同長度和不同截面積的圓管相連接來近似。一般四節就可取得相當好的近似。③聲波輻射。聲源產生的聲波經聲道加以頻譜成型,再由口鼻的開口向大氣中輻射,這便是語音。整個發音過程,從肺提供能源到語音輻射輸出,都可采用聲學分析和借助聲學元件構成的等效電路的方法來加以定量的描述。C.G.M.方特根據語音產生的原理,提出瞭一個語音產生的模型——聲源濾波器模型(見圖)。這一模型構成瞭現代語音信號處理的基礎。20世紀80年代方特等又註意到,聲源的濾波器(聲道)間並不是完全相互獨立的,而是存在相互作用的。特別是在聲門打開時影響更大。因此,他又將這一線性模型發展為非線性模型。

濁音的聲源濾波器模型

  語音分析 用分析的方法研究語言的自然特性。主要內容包括:

  ①頻譜分析。由於自然頻率(或簡正方式)的概念是對語音的簡明描述,加之人耳也是對語音先進行頻率分析的,所以語音信息的頻率域表示最有用處。通常采用傅裡葉變換線性預測分析倒頻譜分析等方法進行短時頻譜分析。現已有許多規范化的計算機軟件可方便地做此工作。電信工程中常需要某一語種的大多數說話人長時間平均功率譜。以前多采用帶通濾波器,其整流後積分時間很長(約1分鐘),以便包括連續言語中的停頓以及音節時長變化。

  ②共振峰分析。這是一種特殊的譜分析,目的是從隨時間變化的語音信號中確定出聲道的復雜的自然頻率——共振峰。由於聲門激勵或鼻通路系統零點對口腔的影響,使得準確提取共振峰比較困難。一般采用語音頻譜包絡的峰值點作為前幾個共振峰的工程近似。但對高元音、高基頻時的情況,就很難用此法找出第一共振。共振峰帶寬也是影響元音音色的重要參數。

  ③噪音基頻分析。聲帶準周期振動的基本頻率是噪音基頻,它的聽覺感受為音高。聲門波的周期、振幅和波形都是隨時間變化的,所以準確、精細地提取噪音基頻非常困難。有許多方法提取基頻,用得較多的是倒頻譜技術。

  ④發音生理分析。采用儀器設備對發音器官發音時的構造和動態變化進行分析研究。如方特根據X射線照相得出瞭聲道面積函數以及聲道形狀與共振模式之間的關系。此後又發展瞭一些發音生理分析研究的專用設備。

  ⑤統計分析。語言具有雙重屬性,即自然屬性和社會屬性。社會屬性在語言交際中起重要作用。采用統計分析方法可定量對語言的社會屬性加以描述,同時也可揭示人類語言行為的某些規律。用統計方法研究語言已形成瞭數理語言學。言語工程中常用的統計數據為各種語言單位獨立和聯合出現的頻率,常用的數學模型為隱馬爾科夫模型。

  語音合成 人們早就想讓機器能說話。8世紀中國唐代將作大匠楊務廉刻木為僧,可發出“佈施”的音。匈牙利工程師馮肯培楞1791年建造並演示瞭能連續發音的機器。但用現代方法實現語音合成則是在20世紀30年代。第一臺由電子線路構造的說話機器是由美國科學傢H.W.達得利等於1939年發明的。此後,采用不同方法的語音合成裝置不斷湧現,主要的類型有:①聲學模型參數語音合成。利用聲源和聲道的聲學參數和一系列發音規則對發音過程在聲學上進行模擬產生語音。這是自20世紀30年代普遍采用的語音合成方法。它容易用電子線路實現,且輸出語音的音質可直接與聲學參數聯系,方法靈活,適用於各種語音合成。但語音復雜多變,協同發音使得語音之間互相影響,特別是聲源特性更為復雜。這種方法產生的合成語音的自然度還不能令人滿意。世界上已有許多不同語種的這種類型的合成器,如共振峰語音合成器線性預測語音合成器等。②發音器官參數語音合成。利用發音器官的生理參數、如聲帶張力、舌高度和位置、唇開度及圓扁、軟顎狀態等,在生理上模擬發音過程。由於準確測量生理參數相當困難,因此這種合成方法隻在研究階段,並未建成可用系統。③語音波形編輯合成。利用錄音存儲經適當選擇的語音基元,根據需要將其適當拼接成語音輸出。存儲的語音基元可是雙音、音節,甚至是單詞或短語。20世紀80年代出現的基音同步波形疊加技術是這種方法的代表。它可取得較好的自然度,但不夠靈活。此外,在語音合成的基礎上進一步又發展瞭把文字文本直接轉換成語音的文語轉換系統。這就需要對文本進行大范圍的語言學和語音學加工,不僅要作出正確的字音轉換,而且要判定重音分佈和語調模式。現在文語轉換技術已在諸多領域中得到應用。

  自動語音識別 簡稱語音識別。基本任務是建立能準確識別出輸入語音信號的語音單元(音素、雙音或音節)並按要求給出某種形式的輸出系統。如將輸入語音轉換成文字輸出的聽寫機;將一種語音轉換成其他語種的翻譯機;將語音指令變成相應動作的控制機器。廣義的語音識別也包括能理解連續語音意義的言語理解系統。語音識別系統的復雜程度,直接與它的工作條件有關。自動語音識別早期多采用語音頻譜模式匹配方法進行識別。20世紀70年代采用統計方法者以隱馬爾可夫模型為代表,成功建立瞭幾個大詞匯連續言語識別系統,並使其成為主導方法。此外,還有人工神經網絡方法,但未見實用系統問世。

  說話人識別 利用語音進行說話人識別有兩種任務:①說話人確認。根據說話人已有的語音樣本,由識別系統確認一個語音輸入(與已有樣本的內容相同或不同)是否屬於他本人。②說話人辨別。在眾多說話人的發音材料中,識別系統根據說話人的語音輸入,辨別出他是眾多說話人中的哪一個。語音識別利用的是不同說話人發音時的共性特征,而說話人識別則要找出發音時的個人特征加以利用。

  語音編碼 為提高語音通信的有效性和可靠性,常需要對語音信號進行編碼處理,以達到壓縮和加密的目的。語音信號處理可在3個層次上進行:①波形處理。基本保持波形不變,如各種聲電換能器、脈沖編碼調制及數字信號處理。②參數處理。采用語音分析–合成技術,將語音信號分解成某種參數組加以編碼傳遞,在接收端進行解碼、合成重建初始語音信號。最常用的有線性預測編碼和信道編碼,可較大幅度壓縮傳遞的比特率。2 400比特/秒的線性預測聲碼器已經標準化,言語可懂度可接近普通電話(36 000比特/秒)的水平,但自然度稍差。③信息處理。在對語音信號進行全面的語言學和語音學分析(包括語音、詞匯、句法、語用和話語分析)的基礎上,模擬人類語言交際的編解碼過程,有望接近人類信息處理速率的極限(實驗表明約為50比特/秒)。現在按概念語音合成、對話系統等均已出現。

  言語感知 語音信號是多維的有相互作用的復雜信號。言語感知是一個自適應過程。可將言語感知分成兩部分:①外圍部分。聽覺作為一個聲信號的力學–神經換能器。②中樞部分。聽音人根據在一定的語言學框架中呈現的聲信號所產生的聽覺模式進行分類和辨認。

  在經典的聽覺心理物理資料(如響度、音調、掩蔽、雙耳效應等)的基礎上,利用語音合成技術進行心理物理實驗,得到瞭元音共振峰的頻率差別閾約為共振峰頻率的3%~5%;共振峰帶寬的差別閾約為20%~40%帶寬;共振峰振幅的差別閾,第一共振峰約為1.5分貝,第二共振峰約為3分貝。人們對語音基頻的感知最敏感,基頻的差別閾為基頻的0.3%~0.5%。采用絕對辨認和相對辨認ABX測試,揭示出第二共振峰過渡對濁塞音/b,d,g/辨認的重要線索。

  語音信號在聽覺中樞是如何進行處理的還不清楚,什麼是言語知覺的基本單元也不確定。從實用的觀點來看,清晰度試驗和可懂度理論不但可用於評價言語傳遞系統的工作性能,而且有助於認識影響言語感知的因素。實驗表明,詞匯大小、語境關系、聲調語調都直接影響言語感知。實驗導出的清晰度指數AI可用於通過計算(根據傳遞系統和工作條件的物理參數)預測模擬線性語音通信系統的可懂度。漢語的清晰度指數可參見中華人民共和國國傢標準GB/T15485–1995語言清晰度指數的計算方法。

  

推薦書目

 方特 G, 高奮 J. 言語科學與言語技術. 張傢鐲等, 譯. 北京: 商務印書館, 1994.