為便於將漢字送入中文處理終端或系統,用預先設計好的方法,將漢字音、形、義有關要素變成數位、字母或鍵位名稱的轉換方法。漢字輸入編碼是人到機(電腦)交換漢字特徵資訊的介面。

  世界上使用漢字的人口約占世界總人口的1/4,因此研究和發展漢字輸入編碼是一項非常急迫的任務。中國是漢字的發源國,漢字應用已有數千年歷史。1987年中國研究漢字輸入編碼的人員已近400人,不論在深度和廣度上,都走在世界前列。

<

  1981年,中國國傢標準局公佈的國標 GB2312-80《漢字信息交換用編碼字符集》,收漢字6763個,到80年代中期除專業用字符集外,都以國標字符集所收漢字作為輸入編碼范圍。

  漢字輸入編碼入手的方法,是在漢字中尋找統一的有規律的特征信息,將漢字二維平面圖形信息轉換成一維線性代碼。根據所取特征信息的不同,漢字輸入編碼分從音編碼和從形編碼兩大類。其他類型是相互結合型,或與字義結合,或與檢字法結合,或與詞組結合。因設計的目的、思想不同,用以編碼的元素、所用碼元的數量、取碼方法和規則,避開同碼字和占用鍵盤鍵位的方法等,都因設計者而異,因此產生瞭數百種漢字輸入編碼方案。

  從音編碼是以1958年2月11日中國全國人民代表大會批準公佈的《漢語拼音方案》為基本編碼元素。漢語拼音是以北京語音為標準音,以北方語為基礎方言,以典范的白話文著作為語法規范的普通話。自推廣普通話以來,已有相當數量的人掌握瞭漢語拼音,以此為基礎作漢字輸入編碼,為這部分人所樂於接受。但中國各地方言復雜,不少人還難以做到準確認讀漢字,因此容易出現差錯。此外,北京語系隻有21個聲母,39個韻母,1332個音節,不能區別成千上萬個漢字,同音字很多,所以需要增加定字編碼。這就要從形、從義去找,或借助計算機將同音字全顯示出來,再去選擇定字,可見從音編碼方式輸入繁瑣,輸入速度低。但日常漢語口語中有詞、語句的限定,同音字不會被人誤解。利用這一漢語特征,拼音編碼已向拼音詞組編碼發展來解決部分欠缺。

  從形編碼是以筆畫和字根(字元、部件)為編碼元素。現代漢字是從甲骨文、金文演變而來,經過篆書、隸書、楷書等演變而形成的。在形體上逐漸由圖形變為筆畫,象形變為象征,復雜變為簡單。造字原則從表形、表義到形聲,漢字數量增多主要是形聲字數量多。漢字從形編碼是充分利用現代漢字這些特征,把漢字平面圖形編成線性代碼。

  漢字從形編碼利用人們已有的漢字書寫知識,在鍵盤上象寫字一樣打入筆畫和字根,從計算機內選出漢字,既直接又方便。這樣就要把上千個字根和上百個筆畫盡可能歸納,減少它們的數量,以便於記憶字根所在鍵位。到1987年已能將字根歸納為100個左右,筆畫為5個。字根少瞭會造成分解漢字圖形的難度,字根多瞭又會增加記憶量,所以設計者需從中選取最佳的取舍方案,做到易學易記,因此形碼方案數量很多。為達到高速輸入,從形編碼也向詞組編碼發展。

  漢字輸入編碼將會隨著計算機應用的普及,通過學術評議和用戶實踐,由數百種優選成數種實用方案。