漢字輸入編碼-百科詞條

　　為便於將漢字送入中文處理終端或系統，用預先設計好的方法，將漢字音、形、義有關要素變成數位、字母或鍵位名稱的轉換方法。漢字輸入編碼是人到機(電腦)交換漢字特徵資訊的介面。

　　世界上使用漢字的人口約占世界總人口的1/4，因此研究和發展漢字輸入編碼是一項非常急迫的任務。中國是漢字的發源國，漢字應用已有數千年歷史。1987年中國研究漢字輸入編碼的人員已近400人，不論在深度和廣度上，都走在世界前列。

　　1981年，中國國傢標準局公佈的國標　GB2312-80《漢字信息交換用編碼字符集》，收漢字6763個，到80年代中期除專業用字符集外，都以國標字符集所收漢字作為輸入編碼范圍。

　　漢字輸入編碼入手的方法，是在漢字中尋找統一的有規律的特征信息，將漢字二維平面圖形信息轉換成一維線性代碼。根據所取特征信息的不同，漢字輸入編碼分從音編碼和從形編碼兩大類。其他類型是相互結合型，或與字義結合，或與檢字法結合，或與詞組結合。因設計的目的、思想不同，用以編碼的元素、所用碼元的數量、取碼方法和規則，避開同碼字和占用鍵盤鍵位的方法等，都因設計者而異，因此產生瞭數百種漢字輸入編碼方案。

　　從音編碼是以1958年2月11日中國全國人民代表大會批準公佈的《漢語拼音方案》為基本編碼元素。漢語拼音是以北京語音為標準音，以北方語為基礎方言，以典范的白話文著作為語法規范的普通話。自推廣普通話以來，已有相當數量的人掌握瞭漢語拼音，以此為基礎作漢字輸入編碼，為這部分人所樂於接受。但中國各地方言復雜，不少人還難以做到準確認讀漢字，因此容易出現差錯。此外，北京語系隻有21個聲母，39個韻母，1332個音節，不能區別成千上萬個漢字，同音字很多，所以需要增加定字編碼。這就要從形、從義去找，或借助計算機將同音字全顯示出來，再去選擇定字，可見從音編碼方式輸入繁瑣，輸入速度低。但日常漢語口語中有詞、語句的限定，同音字不會被人誤解。利用這一漢語特征，拼音編碼已向拼音詞組編碼發展來解決部分欠缺。

　　從形編碼是以筆畫和字根(字元、部件)為編碼元素。現代漢字是從甲骨文、金文演變而來，經過篆書、隸書、楷書等演變而形成的。在形體上逐漸由圖形變為筆畫，象形變為象征，復雜變為簡單。造字原則從表形、表義到形聲，漢字數量增多主要是形聲字數量多。漢字從形編碼是充分利用現代漢字這些特征，把漢字平面圖形編成線性代碼。

　　漢字從形編碼利用人們已有的漢字書寫知識，在鍵盤上象寫字一樣打入筆畫和字根，從計算機內選出漢字，既直接又方便。這樣就要把上千個字根和上百個筆畫盡可能歸納，減少它們的數量，以便於記憶字根所在鍵位。到1987年已能將字根歸納為100個左右，筆畫為5個。字根少瞭會造成分解漢字圖形的難度，字根多瞭又會增加記憶量，所以設計者需從中選取最佳的取舍方案，做到易學易記，因此形碼方案數量很多。為達到高速輸入，從形編碼也向詞組編碼發展。

　　漢字輸入編碼將會隨著計算機應用的普及，通過學術評議和用戶實踐，由數百種優選成數種實用方案。