單變數統計分析-百科詞條

　　在一個時間點上對某一變數的描述和推論。根據資料獲取方式的不同，對單變數的統計分析採用統計描述和統計推論兩種方式。

　　單變數統計描述　當資料的獲取包括瞭研究的全體物件時採用。它分為研究變數的全貌和典型特徵兩部分。變數的全貌是通過分佈來描述的，即將資料簡化為變數值和頻次對的集合。為瞭使這種分佈更直觀，常採取統計表式統計圖的形式（見表）。變數的典型特徵由一系列特徵值描述，變數的的層次不同，使用的特征值也不同，最常見的特征值有集中值和離散值。集中值又稱集中趨勢，表明一組數據的典型情況和平均水平。離散值又稱離散趨勢，反映變量值的分散程度或波動范圍。

生育孩子數目的頻次表

　　常用的特征值有：①眾值М₀和異眾比例γ。適用於各種層次的變量，但以定類變量最為適用。眾值М₀用來表示變量的集中值，異眾比例γ用來表示變量的離散值。

　　眾值М₀＝數據中具有頻次最高的變量值，如表中生育孩子數是2時，頻次為48，即是眾值。

式中N為觀察總數；f_mo為眾值的頻次。

　　②中位值М_d和極差R或四分互差Q。適用於定序以上層次的變量，但以定序變量最為常用。中位值М_d用來表示變量的集中值，極差R或四分互差Q用來表示變量的離散值

　　中位值М_d為數據中居中位置的變量值。對於未分組資料，當資料按序排列後，對應（N+1)/2位置的變量值，即為中位值，表中數據的中位值為3（孩子數）。對於分組資料，則累計頻率達50％點的變量值即為中位值。

　　極差 R為數據中變量最大值與最小值之差。表中極差為12。四分互差Q為數據分佈中累計頻率達25％或75％點變量值之差。

　　③均值μ和標準差

。僅適用於定距以上變量。均值 μ用來表示變量的集中值，是數據總和的平均。標準差

用來表示變量圍繞均值 μ 的平均分散程度。計算公式為

式中N為觀察總數；X_i為觀測值。

　　標準差

的平方稱作方差。方差也可用來表示定距以上變量的離散值。

　　單變量統計推論　當資料的搜集隻包括研究對象的一個隨機樣本時采用。它分為參數估計和假設檢驗兩部分。參數估計就是根據抽樣結果，科學地估計總體特征值的大小或范圍。用樣本的均值x、成數p和標準差s作為總體的特征值，均值μ、成數 p和標準差

的估計值，稱作參數的點估計。例如，根據樣本的人均收入，估計總體的人均收入。

式中X_i為樣本中的觀察值；

為樣本的容量；

為所研究的類別在樣本中的數目。

　　參數的區間估計是對總體的特征值所在范圍作出估計。例如，根據樣本的人均收入，估計總體的人均收入在什麼范圍。在樣本容量

不小於30時，總體均值的區間估計為

總體成數的區間估計為

根據公式確定：

區間估計公式中，估計正確的概率為1- α（見圖）。

　　假設檢驗是根據抽樣結果在一定可靠性的基礎上對原假設作出接受或拒絕的判斷。例如，為瞭確信某地生育率是否已控制在15‰，可進行一次抽樣調查。根據抽樣結果，來檢驗生育率為15‰的假設是否可以接受。這樣的判斷都帶有概率的性質，百分之百判斷正確是不可能的。衡量判斷中可靠性大小，一般用顯著性水平大小來表示。

　　使用統計推論技術的條件是：賴以抽樣的總體名單必須是齊全的；抽樣是概率抽樣。同時非抽樣誤差在推論中沒有涉及。如果數據的非抽樣誤差太大，統計推論的結果將失去其應有的正確性。