縱橫碼與我的科研
蘇州大學
王翼勛
我雖然是非專業輸入人員,但為寫書、錄文章而打了近二百萬漢字,具有五年多教學漢字輸入法的實踐,下面從應用的角度談談自己對縱橫碼的認識。
這十年來,是電腦日益普及、逐漸進入家庭的時代,也是各家中文軟體、各種編碼的“春秋戰國”時代。我認為,離開了“發展”這個基本的大環境,就講不清對漢字編碼的認識。
我學漢字編碼的首要目的是寫書,出版社要求交磁盤。否則,我的手稿如果依賴打字員去排,內容再好,也不知哪年哪月才能出版。所以說,我學漢字編碼,是“逼上梁山”。
初學輸入,首先想到的是求助於漢語拼音。接觸電腦英文大鍵盤之前,我已經在機械打字機上盲打了8年,輸入拼音的手指作業數量再多,也難不倒我。但問題是我出生在浙江,生長在蘇南,普通話不準。“sh”與“s”,“ing”與“in”,老是搞不清。如果在“sang”中找不到賞字,就得改到“shang”中去找,而“shang”中的重碼多達68個。無怪一分鐘打不了10個漢字,一小時中堅持不了40分鐘。
於是想到用雙拼輸入法,當時只是個早期版本,雙字詞組中每個字只用一個聲母鍵,一個韻母鍵。增加了重碼,多翻幾頁去找,總比找不到強。速度是快了一些,但在重碼中翻頁找字,眼睛吃不消,連續輸入做不了半小時,一天做不滿五小時。出版兩本書,八十萬字,所花時間實在是不好統計的。
要想不糾纏於拼音,減少重碼,只有學形碼。
當時流行的是SPDOS及WPS五筆字型,還得逐字輸入,拆碼是個困難,補字型識別碼更困難。130個字根,抄在小卡片上,粘在螢幕旁邊,輸入時隨時查對。在1994年就個人擁有一台機的有利條件下,也要在練習半年時間之後,輸入速度才與拼音輸入相當。不錯,五筆字型有個選擇式易學輸入法的Z功能,但首先還得大致掌握拆字法,八九不離十,才能用它解決問題。如果在入門起步階段,逐字輸入全用Z功能,搞出一大堆重碼,其間排列似乎還沒有甚麼規律,還不如一本以拼音索引的五筆字型編碼字典。
說句老實話,真正下決心了,要正正經經地學五筆字型了,不是為自己用,而是為教《計算機文檔》課的漢字輸入法,介紹五筆字型編碼。站在講台上,可不能隨隨便便繞過哪個漢字,輸不出就放棄。為了教會學生,我還想了不少辦法,但效果還是不甚理想。
我對中國數學史有興趣,一輩子的心血花在校勘南宋的數學名著《數書九章》上,其中有佔當時世界數學水平頂峰的一次同余式組解法和高次方程數值解法,比歐州遙遙領先了幾百年。這本書流傳到今天,成了三個大系統,九種不同的版本。怎樣恢復原貌,是件值得投入一輩子精力的工作。但是,我的電腦沒法處理繁體字,還是停留在爬方格子的原始水平上,電腦的優越性也就體現不出來。
我曾求助於WINDOWS 3.1繁體版,BIG5字庫中有一萬多個繁體字。面臨的就是音碼、形碼的輸入難題。繁體版的注音輸入法,令我望而生畏。查工具書吧,手邊工具書還夠不上需要。例如,在1977年北京商務印書館出版的《新華字典》(1971年修訂重排本)中,“甚麼”一詞中“麼”字的繁體,有二種注音。我調出注音輸入法的小鍵盤,用滑鼠逐個去點,哪一個都不靈,最後偶然才碰出。更叫我頭痛的是,它還要憑四聲來減少重碼,不輸入陽平,字就出不來。我拼音都不準,何況還要四聲。這樣一來,輸一個字總是花三、五分鐘。
同樣,求助於WINDOWS 95繁體版,面臨的問題,還是繁體版的注音輸入法。
幸虧有了WINDOWS 95簡體版 ,幸虧有了ISO 10646國際標準的20902個漢字,才給我真正創造了客觀物質條件。但我要講的第三個幸虧,是幸虧有了縱橫碼。
縱橫碼在WINDOWS 95中,輕松地對簡繁混合體20902個漢字編碼而重碼很少,基本在一個選字區內全部列出。
在縱橫碼漢字輸入法中,單字輸入、詞組輸入和自定義詞組輸入,可直接調用所有的簡繁字。例如,“國家”的“國”字,簡體的編碼肯定與繁體的編碼不同,想要哪個就是那個。
縱橫碼的詞組有6萬多條,輸入法更有特色。二字詞組,取每個字的前三碼;三字詞組,取每個字的前二碼;四字詞組,取第一、四字取前二碼,第二、三字只取一碼。由於每個漢字的縱橫碼,先是主部首,其次是副部首,第三是字身取碼,並非個個漢字要補碼。字身取碼的最後一步,因種種原因,才引入補碼規則。這意味著,詞組輸入法完全避開了難以記憶的補碼規則。
萬能輸入,用問號代替其它輸入碼,充其量在選字區內的幾個重碼中找一下。實在是太理想了。何況,萬能輸入對詞組也能使用。
然而,我不是第一次學形碼,從五筆字型轉向縱橫碼,干擾非常嚴重。我得甄別縱橫碼的長處,從幾個方面反復考慮,才能最後下決心。
想來想去,只要我用ISO 10646中國際標準的20902個包括日本漢字、韓國漢字、香港地區使用的粵語方言字、繁體字和簡體字在內的任何方塊漢字,就只有下決心學縱橫碼。很簡單,不學會縱橫碼,我只能局限在6763個漢字中,十六年寫的心血《數書九章校勘》就輸入不進去,這又是一次“逼上梁山”
。
不過說實話,縱橫碼入手容易,精深難,因為補碼規則難以記憶。這一點,我深深體會到編碼創始人的苦衷。作為一種對付這麼多繁雜漢字的編碼方案,為了減少重碼,更為了體現方案完整性,不得不加上補碼規則。就五筆字型而言,它的規則依賴字形,但對6763個都不夠用,再得加幾百個難拆字,你不靠硬記住,憑規則能想出拆“曹”字嗎?至於“靨”和“嵊”,是甚麼規則和難拆字表都管不住的。
其實,如前所說,輸入詞組時,補碼規則的作用就降低了。對於單個漢字,我也是可以盡量避開補碼規則的,一個方法是輸入詞組,刪去不要的字。第二個方法是轉到另一個熟悉的輸入法,主要是音碼,不也就可以輸入了嗎。我不是說不要學補碼規則,而是說可以慢慢來,暫時記不住,不構成致命的障礙,時間長了,自然會了。
總之,講到我的漢字編碼使用觀,也就是選擇輸入法的標準,從幫助我科研的角度出發,排列次序可能與別人有所不同:
第一點是關於速度與找字。
速度並不是第一位的,想到甚麼,就能打進去,邊想邊打,邊打邊想,每分鐘大概30到40個,足夠了。哪個業余打字員是每分鐘100個,接連二、三個小時一口氣打完的?不查詞典,能迅速找到所用的字詞,則是第一位的。
第二點是關於音碼與形碼。
拼音碼是基本的。拼音準,能全拼,令人羨慕,但按鍵次數之多,卻不令人羨慕,除非能達到英文盲打的程度。UCDOS5.0和6.0的智能拼音,WINDOWS
95的智能ABC,都有其特色,值得推薦。但音碼只能對付一、二千個常用的漢字,對一個科研人員來說,詞匯量大得多,若要靠拼音輸入,漢字不同於英文,認得了字面,認不了音。對一個涉及古代漢語的人來說,恐怕懂得意義的字詞多,發音準確的字詞不見得有多少,靠拼音輸入,若再憑四聲來減少重碼,煩上加難。因此,音碼和形碼一定要結合使用。而形碼的潛力是最具有吸引力的。
綜觀電腦“發展”這個基本的大環境,我認為,當前的各種編碼,已經從“春秋”時代轉入“戰國”時代,成氣候的編碼方案不過是十幾家了。這是自然淘汰的結果,是符合客觀規律的。
一個科研工作者,年近四、五十歲,想獨立輸入漢字寫自己的文章和論著,由於只能學一種形碼,又想學了後,不但能在WIONDOWS中解決形碼輸入問題,而且能隨著這個形碼的發展,越來越方便、快捷,那就是學縱橫碼。
就WINDOWS 95上附帶的輸入碼看,有個鄭碼輸入法,靠形碼輸入,分成普及版和標準版兩種。普及版只能用於6763個漢字。用設置中的輸入法安裝,能裝上標準版GBK鄭碼輸入法,也能輸入20902個漢字。把它與縱橫碼比較,同樣為了對付這麼多繁雜漢字,為了減少重碼,更為了體現方案完整性,不得不加上各種各樣的規定。思路不同,編碼有所不同。不言而喻,由於形碼只能學一種,我就不去鑽研它了。
選準了方向,才考慮第三點,即學習時的難易問題。要出書,要交磁碟給出版社,這就是“逼上梁山”,再難也得學的。
上面,我只是從一個大陸上用慣簡體字的使用者角度出發,因為要輸入古代文字,講到在簡體版的WINDOWS95中調用繁體字。
我們知道,6763個簡體漢字的選擇是有其時代特點的,因而有其局限性。例如,雙喜字,用字上加一撇的地名字,升字上加個日的字,都沒有收錄。再有,中國人取名用字是有強烈的傳統色彩的,反映了中華文化的特色,但是相當一部分人名用字超出了6763個簡體漢字,蘇州大學學生名冊上,經常出現有姓無名、雙名變單名的怪事,給點名、考試、登錄成績造成很大的麻煩。一句話,凡是不想受6763個漢字局限的人,全要想到包含了所有漢字字形的20902個漢字。用了縱橫碼,還是在簡體版的WINDOWS95中寫你的繁體字文章好了,你可以輕松調用20902個中的任何一個字。
再擴大講,就漢字集在世界上所涉及的範圍而言,香港、澳門、台灣同胞,乃至東南亞華僑同胞,他們今天在用的就是繁體字,縱橫碼解決了他們輸入時的困難。而用繁體版的WINDOWS95,同用樣的輸入法,不但可以輸入他們日常用的繁體字,也可照樣輸入大陸上看慣的簡體字。
縱橫碼的意義,確確實實是無法估量的啊。
返回上頁 |