縱橫碼-以數字編碼的輸入法

ckcsys.com.hk



縱橫輸入法詞覆蓋率的統計研究

蘇州大學縱橫漢字信息技術研究所
強文明

縱橫碼具有許多吸引人的特點,其中有一個很重要的特點是重碼率極低,即使是引入了大容量詞庫後亦是如此。它的另一個重要特點是擁有大容量的詞庫。最初,縱橫碼輸入系統只帶有5000多條詞的詞庫,經過多年的發展與擴充,現在的WINDOWS縱橫碼輸入系統的詞庫擁有近90000條詞。但是,在這種情況下,縱橫碼的重碼率(字詞混合編碼)仍然極低。

大家知道,詞輸入能大大提高編碼輸入法輸入漢字的速度,一篇文章的錄入若其絕大部分內容可以用詞輸入,則錄入速度肯定較快,反之則較慢。因此,我們除了關心縱橫碼的重碼率外,還應關心其詞對輸入內容的覆蓋率。為此,我們作了一個比較簡單的統計,現把統計結果公佈出來,以提供大家參考。

我們隨意抽取“江澤民主席在九屆人大一次會議上的講話”進行統計。該文共902個漢字。在用縱橫碼輸入該文的過程中,用單字輸入的次數為88次,用詞輸入的次數為301次。

用單字輸入的字及其出現次數如下:
的(32次) 和(9次) 為(6次) 在(4次) 了(4次) 有(4次)
將(4次) 我(2次) 們(2次 ) 向(2次) 地(2次) 把(2次)
而(2次) 要(2次) 上(1次) 正(1次) 與(1次) 間(1次)
裡(1次) 等(1次) 是(1次) 到(1次) 時(1次) 都(1次)
也(1次)

用詞輸入的詞的組成情況如下:
二字詞 194個 共388個字
三字詞 33個 共99個字
四字詞 56個 共224個字
多字詞 18個 共103 個字

從以上統計所得出的結果不難看出,在這篇文章中,縱橫碼詞輸入的內容佔全文內容的90%以上,這說明在縱橫碼中詞的覆蓋率相當大。而且四字詞和多字詞在其中佔了相當大的比例。另外,這篇文章用單字輸入的字中,大部分為具有簡碼的常用字,有的字的出現次數較多,顯然對這些單字的輸入是快捷和方便的。

因此,我們的經驗是,用縱橫碼輸入漢字資訊時,應盡可能用詞來輸入,因為它擁有你所能想到的幾乎所有的詞,這樣你將能通過縱橫碼享受到快速輸入漢字資訊的感受。所以我們認為,縱橫碼確實是一種簡便、快速、實用和先進的漢字輸入碼。

返回上頁


line

[香港豐利科技有限公司] 版權所有
Copyright © 1999 First Link Technologies Limited. All Rights Reserved