摘 要:我國(guó)古籍?dāng)?shù)字化的發(fā)展過(guò)程依次經(jīng)歷了數(shù)據(jù)庫(kù)檢索系統(tǒng)、光盤版古籍、古籍網(wǎng)絡(luò)化三個(gè)階段,取得了豐碩的成果。數(shù)字化古籍具有檢索、輸出方便,有利校勘,功能多樣等優(yōu)勢(shì),其制作技術(shù)也日臻完善,但問(wèn)題仍然存在。
關(guān)鍵詞:古籍 數(shù)字化 數(shù)據(jù)庫(kù)
浩如煙海的古籍資源是中華文明特有的存留,也是祖先留下的寶貴財(cái)富。據(jù)楊家駱先生1946年統(tǒng)計(jì),僅西漢前至清末的古籍就有181755部。傳統(tǒng)的古籍整理主要依賴手工進(jìn)行,不但操作費(fèi)力、效率不高,而且成果的利用也存在種種困難。電腦和網(wǎng)絡(luò)的出現(xiàn)與普及,不僅為古籍資源整理提供了工具,而且為其成果的傳播提供了有效的媒介。有學(xué)者認(rèn)為,數(shù)字化將成為保存、整理和利用古籍資源的趨勢(shì)。
所謂古籍?dāng)?shù)字化,是利用現(xiàn)代信息技術(shù)將古代文獻(xiàn)轉(zhuǎn)化為電子媒體的形式,通過(guò)光盤、網(wǎng)絡(luò)等介質(zhì)保存和傳播。我國(guó)古籍?dāng)?shù)字化的發(fā)展經(jīng)歷了古籍?dāng)?shù)據(jù)庫(kù)檢索系統(tǒng)、光盤版古籍、古籍網(wǎng)絡(luò)化三個(gè)階段。
一、中文古籍?dāng)?shù)據(jù)庫(kù)
古籍?dāng)?shù)據(jù)庫(kù)檢索系統(tǒng)的開(kāi)發(fā)始于20世紀(jì)80年代初,主要是以數(shù)據(jù)庫(kù)的形式儲(chǔ)存古籍文獻(xiàn)的相關(guān)資料,作為古籍研究的輔助工具。它可以利用計(jì)算機(jī)在資料的儲(chǔ)存、整理、檢索、數(shù)據(jù)統(tǒng)計(jì)以及索引編制等方面的優(yōu)越性,改進(jìn)古籍文獻(xiàn)檢索方式,對(duì)古籍資源的研究和開(kāi)發(fā)非常有利。
最初的古籍?dāng)?shù)據(jù)庫(kù)主要是書(shū)目數(shù)據(jù)庫(kù),它始于南京圖書(shū)館、遼寧圖書(shū)館、浙江圖書(shū)館等省市級(jí)大型圖書(shū)館,為方便讀者相繼建立了館藏古籍書(shū)目數(shù)據(jù)庫(kù)。目前,南京圖書(shū)館的古籍書(shū)目數(shù)據(jù)庫(kù)已經(jīng)建立了40萬(wàn)條中文古籍書(shū)目數(shù)據(jù)。該數(shù)據(jù)庫(kù)設(shè)有書(shū)名目錄、著者目錄、分類目錄等,可以通過(guò)輸入古籍名稱檢索該古籍的全部版本,也可以通過(guò)輸入著者名稱檢索館藏全部相關(guān)書(shū)目。
比書(shū)目數(shù)據(jù)庫(kù)在技術(shù)上更進(jìn)一步的是全文數(shù)據(jù)庫(kù),它將古籍資源全文錄入,轉(zhuǎn)化為電子文本,供用戶查閱,提供了一種以字符為主要處理對(duì)象,根據(jù)資料內(nèi)容而不是外在特征來(lái)實(shí)現(xiàn)檢索的先進(jìn)查詢手段。
在書(shū)目數(shù)據(jù)庫(kù)與全文數(shù)據(jù)庫(kù)檢索功能的基礎(chǔ)上,出現(xiàn)了綜合檢索系統(tǒng)。此類系統(tǒng)在檢索性能上有了很大改進(jìn),不僅實(shí)現(xiàn)了任意字、詞和字符串的檢索,還實(shí)現(xiàn)了按條件檢索。檢索的范圍不再局限于書(shū)目和文本,而是對(duì)古籍的標(biāo)題、詞句、注解等實(shí)際內(nèi)容進(jìn)行全面檢索。此外,綜合檢索系統(tǒng)還往往具有多種特色檢索功能和特定的輔助功能。例如,中國(guó)社科院的《全唐詩(shī)》數(shù)據(jù)庫(kù)檢索系統(tǒng),不僅可供快速查檢《全唐詩(shī)》中任何作品的字、句、標(biāo)題、注解,還可以查找該作品在《全唐詩(shī)》中的冊(cè)、頁(yè)、行數(shù)。
表1 現(xiàn)有的部分中文古籍?dāng)?shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)名稱 |
研發(fā)單位 |
《全唐詩(shī)》《先秦魏晉南北朝詩(shī)》《全上古三代秦漢三國(guó)六朝文》《十三經(jīng)》《全唐文》《諸子集成》數(shù)據(jù)庫(kù)檢索系統(tǒng) |
中國(guó)社會(huì)科學(xué)院 |
《紅樓夢(mèng)》數(shù)據(jù)庫(kù) |
深圳大學(xué) |
《全宋詩(shī)》等古詩(shī)研究系統(tǒng) |
北京大學(xué) |
《全唐五代宋詞》檢索系統(tǒng) |
南京師范大學(xué) |
《全宋文》資料檢索系統(tǒng) |
四川大學(xué) |
宋人筆記檢索系統(tǒng)南宋主要?dú)v史文獻(xiàn)全文數(shù)據(jù)庫(kù) |
河南大學(xué) |
《古今圖書(shū)集成》索引續(xù)編 |
廣西大學(xué) |
宋詞別集索引三種 |
湘潭大學(xué) |
《史記》全文檢索系統(tǒng) |
哈爾濱師范大學(xué) |
《貞觀政要》綜合檢索系統(tǒng) |
東北師范大學(xué)古籍整理研究所 |
漢及以前全部傳世文獻(xiàn)電腦化資料庫(kù)
魏晉南北朝全部傳世文獻(xiàn)電腦化資料庫(kù)
竹簡(jiǎn)帛書(shū)出土文獻(xiàn)電腦人資料庫(kù) |
香港中文大學(xué) |
古文書(shū)數(shù)據(jù)檢索系統(tǒng) |
臺(tái)灣大學(xué) |
漢籍全文資料庫(kù)《二十五史》《十三經(jīng)》和諸子數(shù)據(jù)庫(kù) |
臺(tái)灣“中央研究院”歷史語(yǔ)言研究所 |
中文古籍善本書(shū)目數(shù)據(jù)庫(kù) |
美國(guó)普林斯頓大學(xué) |
先秦諸子百家全文檢索系統(tǒng) |
挪威奧斯陸大學(xué) |
二、光盤版古籍
所謂光盤版古籍,其實(shí)就是以光盤為載體的古籍文獻(xiàn)或古籍?dāng)?shù)據(jù)庫(kù)。前期的古籍?dāng)?shù)據(jù)庫(kù)往往只是某些單位或個(gè)人出于輔助研究工作或方便用戶考慮,自行開(kāi)發(fā)設(shè)計(jì)且僅在一定范圍內(nèi)使用的。隨著古籍?dāng)?shù)據(jù)庫(kù)優(yōu)越性的逐步展現(xiàn)和影響擴(kuò)大,出于保存、推廣古籍的愿望或者商業(yè)目的,光盤版古籍紛紛推出,成為當(dāng)前古籍?dāng)?shù)字化的主導(dǎo)方向。
現(xiàn)有的光盤版古籍一般有三種類型:一是圖像版,它將古籍直接以圖像格式掃描存儲(chǔ),有簡(jiǎn)單的標(biāo)題和分類,但缺少檢索手段;二是全文版,它存儲(chǔ)的不再是圖像,而是數(shù)字化的古籍文本,是真正意義上的數(shù)字化圖書(shū),可實(shí)現(xiàn)全文檢索與查找;三是圖文版,它在古籍書(shū)頁(yè)圖像存儲(chǔ)的基礎(chǔ)上,將書(shū)中具有檢索意義的內(nèi)容數(shù)字化,并輔以數(shù)字化的電子工具書(shū),為讀者提供快捷有效的檢索、統(tǒng)計(jì)、整理和編輯功能。
圖像版是利用掃描技術(shù)將古籍以圖像方式存入光盤,技術(shù)簡(jiǎn)單、容易操作,而且可以保存古籍原貌,因而成為國(guó)內(nèi)采用較多的一種方式。1997年,武漢大學(xué)出版社推出的“四庫(kù)全書(shū)光盤版”就采用了這種技術(shù)。它以文淵閣本《四庫(kù)全書(shū)》為底本,將全書(shū)200余萬(wàn)頁(yè)逐頁(yè)掃描,并將“總目”手工錄入,壓縮到150張光盤中。
全文版以文本形式將古籍存儲(chǔ)于光盤上,并在全文檢索系統(tǒng)的支持下,對(duì)文本實(shí)行逐字逐詞檢索。它雖然不能像圖像版那樣保持古籍原貌,而且文字錄入的難度也相當(dāng)大,但由于具備方便快捷的檢索功能,且占據(jù)的存儲(chǔ)空間要遠(yuǎn)遠(yuǎn)小于圖像版,所以仍有較大優(yōu)勢(shì)。
圖文版的優(yōu)勢(shì)較之前兩類更加明顯。其一,它既具備方便快捷的檢索功能,又能讓用戶得覽古籍原貌,這對(duì)研究者而言非常重要,因?yàn)楣偶脑济婷餐芴峁┖芏嘤杏玫男畔;其二,文本錄入不管如何校?duì)都難免存在誤差,用戶可以對(duì)比圖像進(jìn)行查證;其三,當(dāng)前各計(jì)算機(jī)系統(tǒng)漢字字庫(kù)容量有限,出版者在錄入古籍文本時(shí)往往將異寫(xiě)、通假、避諱等生僻字用常見(jiàn)字進(jìn)行替換,研究者需要根據(jù)圖像來(lái)查看古籍原貌。香港中文大學(xué)的漢達(dá)古籍資料庫(kù)光盤便采用了圖文對(duì)照形式,它不僅收錄了140多萬(wàn)字的竹簡(jiǎn)帛書(shū)出土文獻(xiàn),還可以在視窗系統(tǒng)上直接顯示簡(jiǎn)帛圖片和對(duì)照文本。
三、古籍網(wǎng)絡(luò)化
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展和普及,古籍資源的網(wǎng)絡(luò)化也成為一種趨勢(shì)。它主要是將數(shù)字化的古籍資源在網(wǎng)絡(luò)上有償或無(wú)償發(fā)布,供互聯(lián)網(wǎng)用戶使用。例如,國(guó)學(xué)網(wǎng)就擁有《十三經(jīng)》《資治通鑒》《續(xù)資治通鑒》《楚辭》《全唐詩(shī)》《全宋詞》《人間詞話》《文心雕龍》《韓非子》《淮南子》等大量古籍的電子版。
網(wǎng)絡(luò)化是古籍?dāng)?shù)字化未來(lái)的發(fā)展趨勢(shì)。當(dāng)全國(guó)各主要圖書(shū)館實(shí)現(xiàn)古籍?dāng)?shù)字化以后,就可以建立以網(wǎng)絡(luò)為紐帶的古籍?dāng)?shù)字化地區(qū)聯(lián)合數(shù)據(jù)庫(kù)和全國(guó)性數(shù)據(jù)庫(kù),甚至在全世界范圍內(nèi)實(shí)現(xiàn)共享。網(wǎng)絡(luò)化也能夠使更多人方便地閱讀和使用古籍,為古籍資源的研究和傳統(tǒng)文化的弘揚(yáng)提供一條嶄新的渠道。
表2 中文古籍資源相關(guān)網(wǎng)站
四、現(xiàn)存的主要問(wèn)題
1.技術(shù)問(wèn)題。古籍文本輸入的主要方法目前有兩個(gè):鍵盤輸入與光學(xué)字符識(shí)別(OCR)掃描輸入。鍵盤輸入屬于手工作業(yè),效率低,成本高。OCR則是一種較為先進(jìn)的自動(dòng)化信息資源輸入技術(shù),但也存在一些諸如圖像質(zhì)量不高,掃描速度低,單位成本高,識(shí)別率低等技術(shù)性問(wèn)題。并且,現(xiàn)有的漢字識(shí)別系統(tǒng)多數(shù)是針對(duì)簡(jiǎn)體的,識(shí)別字?jǐn)?shù)一般只有4000左右,識(shí)別豎排繁體古籍效果非常不理想。即使是能識(shí)別繁體漢字的系統(tǒng),也由于古籍漢字的頻度與現(xiàn)代漢語(yǔ)差異較大,使得識(shí)別效果一般較差。
計(jì)算機(jī)對(duì)文字的處理要通過(guò)編碼來(lái)完成,國(guó)標(biāo)字庫(kù)(GB)僅收字6763個(gè),國(guó)標(biāo)擴(kuò)展?jié)h字字庫(kù)(GBK)收字也只有20902個(gè)。與此相對(duì)的是龐大的漢字?jǐn)?shù)量,《漢語(yǔ)大字典》收字近6萬(wàn),《中華字!肥兆诌_(dá)8萬(wàn),古籍通用字約有4萬(wàn),常用異體字約為2萬(wàn)。相對(duì)古籍中眾多的繁體字、異體字、通假字、避諱字而言,計(jì)算機(jī)的文字編碼不敷應(yīng)用,缺字一直是古籍電子化的瓶頸。
2.人才問(wèn)題。在古籍?dāng)?shù)字化過(guò)程中,最重要的工作是要在錄入文本前對(duì)古籍進(jìn)行整理。因?yàn)楣偶径际秦Q排繁體字,還包含大量的異體字、通假字等,且沒(méi)有標(biāo)點(diǎn)符號(hào),行文格式繁瑣,必須先進(jìn)行整理,而古籍整理工作只能依賴于專業(yè)人員。所以,古籍資源數(shù)字化是傳統(tǒng)學(xué)術(shù)方法與現(xiàn)代科學(xué)技術(shù)的結(jié)合,它需要一批既懂得古籍整理又精通計(jì)算機(jī)技術(shù)的人才,F(xiàn)狀卻是古籍整理專業(yè)人員不懂電子技術(shù),計(jì)算機(jī)技術(shù)人員缺少古籍知識(shí)。古籍資源數(shù)字化專門人才的培養(yǎng)亟待提上日程。
3.統(tǒng)籌問(wèn)題。我國(guó)古籍?dāng)?shù)量龐大,且往往分散各地,僅由一個(gè)單位或組織來(lái)負(fù)責(zé)完成某一專業(yè)領(lǐng)域內(nèi)的古籍書(shū)目數(shù)據(jù)庫(kù)建設(shè)是非常困難的,需要多方合作才能進(jìn)行。而國(guó)內(nèi)的古籍?dāng)?shù)字化工作缺乏一個(gè)全國(guó)性的權(quán)威機(jī)構(gòu)的統(tǒng)一指導(dǎo)和協(xié)調(diào),開(kāi)發(fā)單位各自為政,熱點(diǎn)項(xiàng)目重復(fù)建設(shè),冷門項(xiàng)目少有問(wèn)津。1998年一年至少出現(xiàn)了3種光盤版的四庫(kù)全書(shū),投資額驚人,造成了人力、物力的極大浪費(fèi)。長(zhǎng)期以來(lái),很多單位都做了古籍書(shū)目數(shù)據(jù)庫(kù)或古文獻(xiàn)資料數(shù)據(jù)庫(kù),并自造了相當(dāng)數(shù)量的字庫(kù),浪費(fèi)了資源。另外,個(gè)別單位僅考慮自身利益,拒絕資源共享,致使一些數(shù)據(jù)庫(kù)涵蓋的文獻(xiàn)資料頗為有限,遠(yuǎn)未能實(shí)現(xiàn)對(duì)全國(guó)范圍內(nèi)的整體檢索。
4.標(biāo)準(zhǔn)問(wèn)題。規(guī)范、統(tǒng)一的數(shù)據(jù)庫(kù)形式是數(shù)據(jù)庫(kù)的生命所在。要建立全國(guó)統(tǒng)一的古籍書(shū)目數(shù)據(jù)庫(kù),必須有統(tǒng)一的數(shù)據(jù)格式要求。如果沒(méi)有規(guī)范的機(jī)讀目錄格式,數(shù)據(jù)庫(kù)就無(wú)法進(jìn)行交換,無(wú)法真正實(shí)現(xiàn)國(guó)家乃至世界范圍內(nèi)的資源共享。許多單位設(shè)計(jì)數(shù)據(jù)庫(kù)時(shí)采用的標(biāo)準(zhǔn)不一致,導(dǎo)致難以共享使用。此外,還必須對(duì)古籍原本進(jìn)行鑒別和統(tǒng)一著錄,執(zhí)行統(tǒng)一的分類表和分類原則,否則就會(huì)出現(xiàn)書(shū)目數(shù)據(jù)不準(zhǔn)確,造成不同的書(shū)被著錄成一種書(shū),或者是一種書(shū)被著錄為多種書(shū)的狀況,給讀者的使用和研究帶來(lái)極大不便。
如果相關(guān)部門能夠聯(lián)合從事古籍?dāng)?shù)字化的主要單位,制訂古籍?dāng)?shù)字化的統(tǒng)一標(biāo)準(zhǔn),實(shí)現(xiàn)標(biāo)準(zhǔn)化、規(guī)范化,在此基礎(chǔ)上進(jìn)行分工合作,建立可共享的資源體系,必定能夠促進(jìn)國(guó)內(nèi)數(shù)字化古籍的開(kāi)發(fā)與利用。
5.經(jīng)費(fèi)問(wèn)題,F(xiàn)在擁有古籍文獻(xiàn)資料最多的是公共圖書(shū)館。它們雖擁有豐富的文獻(xiàn)資料和文獻(xiàn)處理經(jīng)驗(yàn),但因?yàn)槿鄙俳?jīng)費(fèi),無(wú)法購(gòu)置必需的設(shè)備和軟件,也缺乏足夠的人力和相關(guān)的計(jì)算機(jī)技術(shù)人才,不少已經(jīng)規(guī)劃好的項(xiàng)目無(wú)法開(kāi)展。只有投入足夠的經(jīng)費(fèi),才能夠解決設(shè)備、軟件短缺問(wèn)題,引進(jìn)技術(shù)人員,正常開(kāi)展古籍?dāng)?shù)字化工作。
參考文獻(xiàn):
[1]王純.古籍?dāng)?shù)字化之趨勢(shì).圖書(shū)館理論與實(shí)踐,2000(3)
[2]厲莉.古籍?dāng)?shù)字化的現(xiàn)狀及對(duì)策.江西圖書(shū)館學(xué)刊,2002(1)
[3]王桂平.我國(guó)古籍?dāng)?shù)字化的現(xiàn)狀及展望.圖書(shū)情報(bào)知識(shí),2000(4)
[4]李為實(shí).關(guān)于古籍?dāng)?shù)字化的思考.四川圖書(shū)館學(xué)報(bào),2002(3)
[5]王育紅.未來(lái)古籍出版的對(duì)策與趨勢(shì)分析.科技與出版,2002(3) |