資訊提取-百科詞條

　　從觀測資料中獲得有用資訊的過程，主要可分為檢測和估計，但在系統辨識和模式識別中也含有資訊提取過程。按照資訊理論和控制論觀點，在通信和控制系統中傳送的本質是資訊，系統中實際流通的則是可測量的信號。資訊包含在信號之中，信號是資訊的載體。電信號到瞭接收端，經過處理可最終變換成語聲、文字或圖像。收信人從語聲、文字或圖像中可以得到各種資訊。一般地說，在接收端將帶有雜訊的信號經過多次變換，以取得有用資訊的過程就是資訊提取。

　　帶有資訊的的各種形式的可觀測、可傳輸、可存儲的信號均可稱為數據。這種數據在傳輸、存儲和變換過程中不可避免地會受到噪聲或其他無用數據的幹擾。要可靠地高效率地從數據中提取信息必須研究這些噪聲和幹擾的性質。它們往往具有按某種統計規律變化的隨機特性。因此，信息論、概率論、隨機過程論和數理統計學，就成為信息提取的基礎和工具。

　　檢測　在接到的有噪聲的數據中判斷是否有某種信息存在，例如要在雷達的輸出數據中判斷是否帶有在警戒空域中存在敵方飛機的信息，就是信號檢測問題。經典統計推斷理論中的假設檢驗理論是處理這一類問題的理論基礎。信息提取的過程如圖。如果信息源發出的原始數據隻有兩種可能：H₁(表示有)或H₀(表示沒有)，統計判決過程隻是在H₀和H₁中選擇一種，這稱為二元檢測或雙擇檢測(兩者擇一)，是較簡單的一種情況。如果原始數據中有多種可能，H₁，H₂，…，H_n，統計判定過程要在n種假設中決擇一種，稱為多元檢測。如果在數據處理過程中對噪聲的統計特性具有先驗知識，稱為參量檢測，經典的檢測理論屬於這一類。如果對噪聲的特性缺乏先驗知識或知之甚少，則是一種非參量檢測理論。這是20世紀60年代初發展起來的理論。70年代初，把60年代中期提出的堅韌統計學移植到檢測領域，堅韌檢測遂得到發展（見檢測理論）。

　　估計　如果有用的信息包含在數據的某些參量中，例如雷達回波信號的頻率參量就含有目標徑向速度的信息，回波信號的相移或時延就含有目標位置的信息等，則信息提取的任務就是從有幹擾的觀測數據中估計出有用的參量。這是參量估計問題，以統計推斷理論中的估計理論作為處理這類問題的基礎。如果所要提取的信息隨著時間連續變化，例如要測定在發射過程中一個空間飛行體的狀態信息，則要測定它在不斷變化中的三個空間位置矢量和三個速度矢量，這是狀態估計問題。類似於檢測問題中的情況，根據對噪聲統計特性的先驗知識的多少，估計理論也分為參量估計、非參量估計和堅韌估計三類。常用的參量估計方法有最小二乘法估計，極大似然法估計和貝葉斯估計。所有的估計方法都是力求使按照某一準則定義的誤差趨於最小。不同的誤差準則就引導出不同的估計方法。著名的維納濾波理論是最小均方誤差準則下的線性濾波理論。這一理論以及F.E.卡爾曼用狀態變量法在時域處理的遞推濾波理論都屬於重要的狀態估計方法。

　　辨識　對於很大一類問題，要提取的信息是包含在一個簡單的或復雜的系統中。例如，對一個新設計的控制系統，需要獲得這一系統某種性能的信息，這屬於系統辨識問題。一般情況下，系統性能的信息與系統參量有關。系統辨識問題往往是系統參量估計問題。通常的方法是，首先精確測量系統的輸入和輸出數據，然後估計系統模型中（即數學方程中）的未知參量。由於實際的輸入、輸出數據要受到噪聲影響，系統本身也會有隨機幹擾，所以系統參量估計也是一個統計問題。估計方法中的最小二乘法（最小均方誤差法）、極大似然法等都可用來估計系統參量。

　　識別　有一類信息隱含在語聲、文字或圖形圖像中。例如用遙感技術獲得的地形地物圖像中可能有農作物的信息、地質構造的信息等。這些信息不是用人眼觀看所能識別的，往往要經過復雜的圖像處理才能把信息提取出來。這一類問題統稱為模式識別，用計算機進行識模是正在發展中的技術領域。通常要經過這樣幾個典型步驟：圖像數值化；將各類圖像的重要特性用數字刻劃出來（特性提取）；在某一類圖像的許多特性中，找出某些綜合性指標（特征選擇）；設計識別方案，使得任一個未知類別的圖像在數字化以後，根據識別方案就可以判決它屬於哪一類。這是最常用的統計模式識別。此外，語言結構法（句法）識別也正在發展中（見信息處理）。