縱橫碼技術淺論
蘇州大學縱橫漢字信息技術研究所
朱巧明、陳志鋒、張國強
一、前言
電腦作為一種工具現已得到普遍應用,而原先是中文資訊處理瓶頸的輸入法也正在被日益完善。作為電腦漢字輸入法的一種,縱橫碼正以其新的面貌服務於廣大電腦使用者,使越來越多的人得到縱橫碼的實惠。縱橫碼是由香港周忠繼先生經過數年時間的努力而研製成功的,並在香港出版了碼本。一九九三年,縱橫碼由蘇州大學縱橫漢字信息技術研究所順利轉化為縱橫漢字輸入系統和縱橫漢字編碼法教學系列軟體,為廣大電腦使用者提供了一種新穎實用的漢字輸入法。經過這幾年的推廣,縱橫碼現已遍地開花,從江蘇推廣到上海市,到浙江省,到山東省……。縱橫碼以其編碼規範,輸入法採用電腦技術的先進性,正被越來越多的電腦使用者所認可。下面,筆者想簡要探討一下在縱橫碼及其輸入法的開發過程中採用的思想理論和技術。
二 、縱橫碼的編碼原理
漢字不同於西文,在字形、發音、書寫方式到句法和語法都有其特殊性。漢字是表意文字,是用表意體系的符號來表示漢字的詞或詞素。漢字一般不能直接表示出讀音,儘管有表音成形的形聲字,本質上,漢字還是屬於表意文字體系。也就是說,漢字是以其形為主的。
1.字形編碼的心理依據
現代模糊科學的重要依據之一是人的心理活動規律的仿生學應用。人們的行為活動,通常是在從客觀事物獲取模糊的映象、表象以及概念的情況下展開的,由此才能作出最迅速有效的反應。對於漢字的識別過程,人們是依據從字獲得的大體輪廓的模糊映象而迅速進行的。因此,根據一個字的首要資訊和起最大資訊作用的邊角突出筆劃作為主要標誌確定編碼,能夠便於迅速準確地為漢字定碼、檢索和實行輸入作業。
2.形碼設計的方案提出
電腦處理要求所選擇的“漢字特徵”與“資訊符號”之間保持一種十分嚴整的對應關係,即“符號”與其所代表的“漢字”之間有唯一的對應關係。因此,在設計編碼方案時要求努力減少重碼字,即盡可能的保證這種唯一性。
電腦的作業人員,則要求所確定的作為編碼依據的“漢字”特徵,具有最大的限度和單純性與直觀性,要求“漢字”的特徵和與之相對應的“符號”間關係具備心理上的可接受性。因此,編碼方案力求“漢字的可接受資訊符號”。
3.心理學角度所要求的漢字形碼方案的特點
首先,為了漢字資訊的高速輸入,字形與資訊符號應符合人們一般的辨認漢字的規律。人們辨認漢字的一般規律是利用記憶中對舊字形的把握,來不斷地把握新的字形。因此,漢字“字義的載體”單體字佔的比重最大,其次是“義符”、字體和筆劃可作為輔助特徵來使用。
再次,人們辨認漢字時,首先和主要獲得清晰印象的是字的邊角突出筆劃(頭尾、偏旁、外框)。即人們辨認漢字時,首先把握住的是“漢字”的輪廓,是突出的字體位置上的印象。
最後,根據我國心理學家的研究表明:漢字右下角被掩蓋後,可認度影響較小;而對左右型及上下型結構漢字來說,左上角被掩蓋後,可認度明顯降低;對整體型漢字,無論掩蓋哪個角,對可認度影響相差無幾。
4.縱橫碼的編碼
漢字是象形文字,從漢字發展歷史過程可以看出,是先造漢字,再造部件,爾後才造筆劃的。因此,漢字部件拆字法是漢字造字法的基本原理。在縱橫碼的編碼方法中,對一個漢字先取其主部首(或副部首),再對剩餘的字身取筆形,完全符合漢字造字法的基本原理。縱橫碼的主部首共55個,均包含在GB2312(資訊交換用漢字編碼字符集——基本集)6763個漢字中,顯然是十分規範的。縱橫碼切分的漢字部件在GB2312和GBK中的頻度如表2-1所示(頻度1是指在漢字總數為6763的GB2312的字數,頻度2是指漢字總數20902的GBK中的字數)。
表2-1 縱橫碼各部件在漢字構字中的頻度
部件代碼 |
頻度1 |
頻度2 |
部件代碼 |
頻度1 |
頻度2 |
部件代碼 |
頻度1 |
頻度2 |
0 |
498 |
1795 |
14 |
29 |
330 |
49 |
275 |
979 |
1 |
395 |
1140 |
16 |
102 |
60 |
53 |
14 |
30 |
2 |
131 |
496 |
17 |
50 |
150 |
56 |
130 |
425 |
3 |
1139 |
3150 |
18 |
42 |
164 |
61 |
96 |
275 |
4 |
1037 |
3295 |
22 |
51 |
131 |
62 |
67 |
221 |
5 |
419 |
1303 |
30 |
63 |
182 |
70 |
28 |
242 |
6 |
473 |
1281 |
31 |
351 |
1038 |
71 |
46 |
126 |
7 |
414 |
1492 |
32 |
82 |
343 |
72 |
121 |
326 |
8 |
424 |
521 |
33 |
53 |
137 |
74 |
12 |
43 |
9 |
126 |
374 |
35 |
104 |
220 |
78 |
54 |
60 |
00 |
71 |
107 |
38 |
32 |
89 |
87 |
19 |
32 |
01 |
71 |
107 |
38 |
32 |
89 |
87 |
19 |
32 |
02 |
38 |
338 |
39 |
99 |
228 |
88 |
111 |
379 |
03 |
21 |
8540 |
40 |
69 |
199 |
99 |
30 |
129 |
07 |
30 |
71 |
41 |
153 |
491 |
副部首 |
929 |
3342 |
08 |
16 |
183 |
44 |
113 |
462 |
09 |
53 |
330 |
45 |
47 |
52 |
無部首 |
778 |
1184 |
11 |
81 |
100 |
47 |
30 |
97 |
由此,我們可以看出漢字中絕大部分均含有主部首或副部首,而副部首則主要採用在漢字中佔主要地位的左右結構來劃分(根據統計結果,左右結構的漢字在《辭海》中佔68.45%,在GB2312中佔62.59%,在《新華字典》中佔64.20%)。這時,只剩下少量獨體字,再將其按左上,右上,左下,右下進行筆劃編碼。
因此,縱橫碼編碼規範,規則較少,重碼率較低,且提供了多達10餘萬的常用詞組庫供使用者方便的輸入漢字,十分適合廣大電腦使用者輸入漢字資訊。
三、縱橫漢字輸入法採用的電腦技術
縱橫碼的成功固然與其編碼方案有關,也與其輸入法在開發設計中所使用的電腦技術有關。電腦技術是縱橫碼的重要支援。
1.縱橫碼的通用掛接輸入系統
使用者的使用環境是多種多樣的:有使用DOS的,有直接使用縱橫漢字系統的,有使用UCDOS的,有使用Windows
3.X的,有使用Windows 95的,為此,縱橫碼設計了專門針對DOS下的通用掛接輸入系統和專門針對Windows
3.x/Windows 95的簡體輸入通用掛接輸入系統和GBK輸入掛接輸入系統。上述掛接系統提供了容錯輸入(且支援詞組),允許使用者任意增加自定義詞組,動態定義詞組,提供多達10餘萬詞條的詞組庫。這樣,就能基本滿足大部分使用者工作學習的需要。現在,該通用掛接輸入系統已成為江蘇省和上海市計算機等級考試上機作業環境的一部分。
2.縱橫碼的輔助教學技術
在縱橫碼的推廣應用中,學員們普遍反映縱橫碼比其他漢字輸入法易懂好學。其實,除了縱橫碼編碼規範簡明外,也得益於縱橫碼輔助教學軟體。縱橫碼培訓教學系列軟體其設計目的就是幫助使用者學習縱橫碼的編碼規則,從而使使用者高效、快速、輕鬆的掌握縱橫碼,用於中文資訊處理。縱橫碼培訓系列軟體採用形象的圖形,在國內最早使用多種不同顏色來表示各個筆形,每種顏色和筆形及其代碼相對應,教學方式直觀,使用者接受很快。縱橫碼培訓系列軟體根據教學理論與實踐,遵循循序漸進的原則,由簡入繁,由易到難,從筆形到部首,由單字到詞組,使使用者訓練有目的、有重點、出效果,達到了事半功倍。
3.發布於Internet的縱橫編碼查詢系統
隨著網路技術的發展與普及,Internet使世界變小了。全球資訊網WWW(World
Wide Web)風靡世界,WWW克服了以往Internet只能以字元文字發布資訊,而代之以超文字標記語言HTML,使得各網站頁面豐富多彩,網路逐漸成為我們生活的不可缺少的一部分。因此,縱橫碼的中文網站的設立為廣大電腦使用者帶來了福音。現在,無論縱橫碼使用者身在何地,只要能上Internet網,就可以從此中文站點下載縱橫碼系列軟體、聯機查詢漢字編碼、動態進行詞組編碼、解答使用者常見問題等等。總之,縱橫碼與你近在咫尺。
四、前景與展望
電腦技術在不斷發展,同樣,我們使用者的需求也在不斷發展。為了滿足使用者的需求,縱橫漢字信息技術研究所正在開發基於Internet/Intranet的縱橫碼教學培訓與測試系統。縱橫碼基於Windows
95的雙內核版通用掛接輸入系統也即將推出。
我們相信,隨著縱橫碼技術的不斷發展,縱橫碼與廣大電腦使用者關係必將越來越密切。
返回上頁 |