“98五筆字型輸入法”大批量造詞
五筆字型是目前最為流行的漢字輸入法之一。“98五筆字型”相對于86版五筆字型,
從編碼理論、編碼規則、部件設計等多方面有許多創新和提高,但筆者在使用中感覺其
自帶的詞庫的詞匯量太少,很多常用詞詞庫中沒有,如“大量、采用、備份、寬度、辦事員、女朋友、翻兩番、按慣例、本世紀初、隆重慶祝、辦公自動化”等。《電腦報》
1999年第35期“為五筆字型輸入法添加大批量詞組”曾介紹把“微軟拼音輸入法”的詞組添加到“98五筆字型輸入法”中(前者的詞組比后者多一倍),但文章介紹的方法不適用于“98五筆字型”,不過“98五筆字型”自帶有詞庫生成器,所以做起來要簡單一些。
1.還原“微軟拼音輸入法”的碼表原文件:
在Win98中單擊“開始/程序/附件/輸入法生成器”,打開輸入法生成器屬性頁,在
“逆轉換”子頁面中單擊“打開文件”按鈕,在打開文件對話框中選擇“C:/windows/system/winpy.mb
(即微軟拼音輸入法的碼表文件)”,按確定按鈕回到輸入法生成器,在碼表原文件框
中輸入轉換后想要保存的文件名如:“C:/winpy.txt”,單擊逆轉換即生成winpy.txt
碼表原文件,這就是我們需要的文件。
2.刪除文件中的字母和單字:
碼表原文件生成后還不能被“王碼漢字輸入法詞庫生成器”接受,必須刪除其中的字母、字
符等,為減小文件長度應刪除所有單字,下面介紹用Word2000進行處理。
(1)用Word打開winpy.txt,刪除頭部如下輸入法信息:
[Description]
Name=全拼
MaxCodes=12
MaxElement=1
UsedCodes=abcdefghijklmnopqrstuvwxyz
WildChar=?
NumRules=3
[Rule]
ca4=p10+p20+p30+p40
ce2=p10+p20
ce3=p10+p20+p30
[Text]
(2)刪除拼音字母:選菜單“編輯/替換(或直接按Ctrl+H快捷鍵)”命令,打開“查找
和替換”操作窗口,單擊“高級”按鈕,再單擊“特殊字符/任意字母(或直接輸入^$)”,
在“替換為”框中不要有任何字符,最后單擊“全部替換”。
(3)刪除多余空格:在“查找和替換”操作窗口中的“查找內容”框中按一下空格鍵,
“替換為”框中不要有任何字符,單擊“全部替換”。
(4)刪除單字:這一步比較復雜,因為刪除單字時需要用到通配符,但通配符不能和特殊字符同時使用,所以要在回車符前后插入一些輔助字符,刪除單字后再把輔助字符刪除。首先光標定位在“查找內容”框,單擊“特殊字符/段落標記符(或直接輸入^p)”,“替換為”框中輸入“$$^p##”,單擊“全部替換”;其次選中“使用通配符”前的復選框,在查找內容中輸入"##?$$",“替換為”框中不要有任何字符,單擊“全部替換”,這樣單字就被刪除,文件中就只剩下詞組;最后把多余的段落標記符和輔助字符刪除,多余的段落標記符刪除方法是在“查找內容”框中輸入兩個段落標記符如“^p^p”,“替換為”框中輸入一個段落標記符“^p”,經過多次替換直到沒有多余的段落標記符為至。現在詞組文件就生成了,按保存按鈕保存這個文件,出現對話框時直接按回車保存為文本文件(TXT文件)。
3.將新詞組添加至“王碼漢字輸入法詞庫”中:
按如下步驟“開始/程序/王碼輸入法/詞庫生成器”運行“王碼漢字輸入法詞庫生成器”,
文件名中輸入以上生成的詞組文本文件winpy.txt,或單擊“游覽”按鈕選擇詞組文件,建庫方式選擇追加詞庫,單擊“開始造詞”,注意觀察下面的進度條,如果在100%之前結束,說明文件中有不被識別的字母或符號,檢查后重新生成。“王碼漢字輸入法詞庫生成器”添加新詞時,先與原詞庫中的詞進行對比,如果要添加的詞在原詞庫中已經存在,則不再添加該詞。
4.疑難問題:
(1)winpy.txt文件的長度按照A4紙有一千多頁,所以刪除操作過程要很長時間,可以把文件先切分成兩個或多個文件后分別處理,處理完再合并。經過添加后的“98王碼漢字輸入法詞庫”大約有三萬條詞組,比原來增加了一倍。
(2)刪除多余的段落標記符時,可以先在“查找內容”框中輸入若干個段落標記符如“^p^p^p^p^p^p”,
執行一次全部替換后,減少個數再執行全部替換,“替換為”框中始終保持一個段落標記符“^p”,
這樣速度要快一些。
(3)王碼漢字輸入法詞庫中有重碼時后追加的詞總是排在先加入的詞前面,即微軟拼音輸入法的詞組排在王碼漢字輸入法詞組前,這樣一來常用詞組并不排在前面,給輸入帶來一些麻煩,有兩種解決辦法,一是用“王碼漢字輸入法詞庫生成器”把新生成的詞庫還原成文本文件,編輯一下;二是在添加詞庫之前把原來的“王碼漢字輸入法詞庫”還原成文本文件,添加“微軟拼音輸入法”詞組時用更新詞庫的方法,之后再把原來“王碼漢字輸入法詞庫”追加到詞庫中。
(4)王碼漢字輸入法詞庫沒有排序的功能,所以有重碼詞組并不一定按照字數排列,這也可以自己還原詞庫編輯處理,編輯時要注意王碼漢字輸入法詞庫把空格和回車符作為兩個詞組的分割符,所以一個詞組中間不能有空格和回車換行符(Word中的段落標記符),另外王碼漢字輸入法詞庫中有一些錯詞如“工共中央國務院”,如有興趣可以自行編輯改正。
(5)如果Win98附件中沒有輸入法生成器一項,請把Win98安裝盤放入光驅,從“開始/設置/控制面板/添加刪除程序/Windows安裝程序”添加。以上五筆字型輸入法為“98王碼(五筆字型WM9801國標版)”。
(6)如果你嫌以上太麻煩可與作者聯系索要已經處理過的詞組文本文件,按以上方法更新“98五筆字型”詞庫文件即可。(zheast@371.net)
新聞熱點
疑難解答