北京大學中文系李鐸信息科技在古代典籍的整理方面,經歷著三個階段。一是數據文獻的錄入。八十年代,臺灣中央研究院率先錄入整理重要的古代典籍。由於大陸較早使用的GB2312漢字系統僅支持6763個漢字,且不支持繁體,所以,大陸在文獻的整理上僅限於現當代文學作品、大型報刊等。自96年WIN95支持CJK以來,大陸纔開始啟動這方面的工作,但大多數仍處於計算機加手工作坊的階段,即人工錄入。九十年代末香港迪志公司與北京書同文公司聯合開發《四庫全書》,使用非特定人手寫識別系統,極大的節約了人力物力。僅兩年多的時間,我們就可以使用《四庫全書》這部近八億漢字的叢書了,後來書同文公司又開發了《四部叢刊》近一億漢字的古籍資料庫,目前該公司又著手《四部叢刊》的四編整理。二是文獻的檢索。一旦整理出古籍文獻,它就進入了使用階段,對於小量的文檔,就可以直接在自己的WORD中使用檢索,查找需要字詞,如果會使用VBA,還可以編輯引得、關聯相關的數據庫等等。如果是海量數據,可以使用特定的檢索平臺,甚至可以直接對數據庫操作。還有多種的搜索引擎用來搜索互聯網上的學術資源,這使古代文學、古代漢語的研究有了突破性的進展。三是古籍文獻的自動化整理、多維數據庫建設、智能分析階段。它是在積累了一定的文本數據後的更高級的數據整理與多任務的應用開發,這一階段的特徵是,數據整理與學術研究相互促進,數據整理帶有學術性,學術研究對數據庫建設提出更精細的要求。也就是我們目前所處的階段。我想以我們近期的工作及設想來說明之。《全宋詩》的自動化分析過程一、文字整理大陸的出版機構在九十年代初就比較廣泛得使用了北大方正的排版系統,今天還有80%以上出版商仍在使用著,迄今出版了數萬種圖書。當初這一系統僅是爲出版紙介而開發設計的,並未考慮到已輸入到計算機的數據以後可以更進一步開發利用。如繁體字文獻,該系統仍使用簡體字內碼,衹是在輸出照排時改變字型輸出繁體字,而且此內碼字庫太少,亦無法適應古代文獻的輸出,所以北大方正又自行設計了一套擴充字庫,用來補充那6763漢字,而這擴充字庫未使用通用的標準系統,在內碼上與後來的GBK中的繁體字完全不兼容,這在轉換上造成了一定的困難,如文獻中的“风B7E7”字,我們如果將之轉換爲繁體的“風”字(EF4C),就會發現,“風”字的數量增大了,因爲在轉換前,文獻中已有“風(EF4C)”,相對GBK而言,它則應是字庫中的“鶖”字,如果先將繁體的“風”(實際上是“鶖”字)轉換爲“鶖”,則與文獻中另一位置的“鶖”(另外一個字)衝突,又多出了很多個“鶖”字。所以北大方正排版系統爲排版而製作的數據需要經過復雜的轉換過程,北京大學中文系語言學實驗室開發了一套北大方正內碼向GBK代碼的轉換系統,除人工即時造字外,基本上可以完整轉換。《全宋詩》的整理便是基於這一轉換系統,加人工補字來完成的。最初我們也曾考慮到使用錄入、掃描識別等手段,但是由於當時掃描識別率較低,工作量過大,僅校對一項就要花費掉該項目的全部費用。二、格律詩的標注我們在錄入整理《全唐詩》時還是使用手工作坊的方式:雙機錄入,單機校對。在《全唐詩》上網前,我想,我們不是一般的公司開發軟體,我們應盡可能地利用我們的學術資源,在數據中融入一些商業公司無法操作的學術內容。所以,首先想到的是將《全唐詩》標注出格律來,這對我們這個項目組(我和一些研究生們)來說,是一
论古籍整理自动化 来自淘豆网m.daumloan.com转载请标明出处.