近年來各地的數字化圖書館建設日益興盛,古籍的數字化也有一日千里之勢,但是必須指出,在相關基礎理論問題尚未解決之前,任何古籍數字化,乃至一切文獻數字化的努力都可能陷入南轅北轍的尷尬局面。這些基本理論問題是,古籍數字化的基本性質是什么?在古籍數字化的過程中誰是主導,內容專家還是技術專家?古籍數字化應該以什么為依歸,衡量數字古籍優劣的標準是什么?保障古籍數字化走向正確路徑的基本要素有哪些?古籍數字化與其它一切文獻數字化的關系如何?
首先要明確的是,古籍數字化屬于古籍整理和學術研究(或稱校讎學)的范疇,而不僅僅是圖書載體的轉換或商業炒作的噱頭。故必須以相關領域的學者(即內容專家,而非技術專家)為主導,才可能向正確的方向發展。純粹的技術專家不可能將古籍數字化,甚至數字化圖書館領向一條康莊大道。技術是形式,內容是核心,內容決定采取何種形式,形式只能服務于內容,而不是相反。只有熟悉對象(古籍)內涵的主體,即內容專家,才有能力決定實現古籍數字化的基本路向和基本框架,技術專家的作用是在既定的框架內如何最便捷、最優化地實現目標。故在古籍數字化領域中,內容專家和技術專家的關系應該如同建筑工程師與建筑工人,這樣才能形成人力資源的最佳配置,有效地發揮各自的功能。IT技術永遠是工具,沒有內容專家的構建和引領,再好的IT技術也難以帶來真正的利益。
其次,既然古籍數字化屬于古籍整理和學術研究的范疇,那么就必須遵循古籍整理的基本原則,懂得學術研究的基本思維過程。古籍整理古稱校讎學,涉及目錄、版本、標點、校勘等一系列的學問,承擔著“辨章學術、考鏡源流”的學術任務。整理一部古籍,要選擇善本為底本,又要廣校眾本,之后精心標點,與所引之書和引用此書之書一一校勘,還須廣徵群籍,拾遺補闕,最后提要勾玄,界定其學術地位與價值。實際上經過整理的古籍乃是一部融入學術研究成果的作品,還附有各種索引數據庫,以便檢索,而并非原有任何版本古籍的復制。數字古籍應該遵循古籍整理的一般過程和一般規則,而現有任何版本的數字古籍都沒有達到古籍整理的最低標準。其次,關于人文學術研究的一般過程與計算機信息處理過程的關系,筆者曾發表《試論中國古籍數字化與人文學術研究》(《北京圖書館館刊》,1998年2期,28-35頁),可供參考。學術研究處理文獻的方式往往是突破其原有結構,將原文獻劃分為若干基本單位,提取其中指向內部含義的關鍵詞,依照它們的屬性進行排序、篩選、統計和分類,比較相關文獻中的關鍵詞,尋求他們之間的相關性。這一過程在手工查閱紙本文獻的時代,需要學者具有深湛的功力;近代以來多以編纂各類古籍索引方式,將經驗轉化為知識。這正是電子媒體需要繼承的重要方法,為此我們必須將隱藏于學者大腦中的經驗和智慧加以總結,建立模型和序列,將無法比較的學術關鍵字賦以數值,例如編制具有規范控制年號與公元紀年對照表、歷代官階序例表、家族世系表、姻親關系表、地名沿革表、人名字號表等,然后再以這些模型和序例為準標引古籍文本,使之完成經驗到知識的轉化,建立人文學術研究的科學內核,有效積累和傳播人類知識,讓每次學術研究行為都從前人的終點開始。如果數字古籍其關鍵詞的標引和規范控制水平比不上傳統索引,其存在的價值勢必受到強烈置疑。
第三,也是非常重要的一點,古籍數字化,乃至一切文獻數字化,必須采取以應用為指針的原則,一切工作都以這項原則為起點,同時又以它為評價工作成效的指標,要實現以應用為指針的原則,就必須懂得應用者的基本訴求。為此,我們首先需要確定數字古籍應用者的范圍,古籍是為學術研究服務的,而非供大眾消遣的余興節目,數字古籍也不例外。古籍數字化必須全面借鑒以往的學術成果,明了紙本形態古籍在學術研究應用中的長處與局限。學者對于應用的要求是古籍數字化的起點,任何從事這項工作的機構或個人如果不了解這些要求,都必將導致全部工作的失敗。以往,當計算機工程師開始設計會計軟件時,對于會計的原理和應用要求也是完全陌生的,但現在會計軟件工程師已經成為一個專門的行業,會計軟件也與應用日益吻合。既然會計軟件能與應用合拍,那么文獻數字化也應將應用的要求放在第一位來考慮。實際上就其本質而言,學術研究的應用要求與其它領域并無二致,一言以蔽之,曰:“知識發現”。所謂知識發現(Knowledge Discovery in Database,簡稱KDD),與我們常說的數據資源再生相近,又稱數據挖掘技術,是指從大量數據中提取出可信的、新穎的、有效的并易于理解的知識的高級處理過程[1]。它已廣泛應用于市場行銷、產品制造、通信網絡管理、金融投資、自然科學研究等許多領域[2]。我們相信,數據挖掘技術運用于人文研究領域,必將創造出更卓越的業績。紙本索引的目標就是數據資源再生,但問題在于紙本檢索工具不能隨讀者的要求提供多種排檢方式,故其再生資源的可用性有限;此外,研究者對文獻本身的認識是隨著研究工作的深入而逐步清晰起來的,其工作初期往往難以明確提出與自己的研究題目完全切合的全部關鍵詞,而是要在較大范圍內進行模糊查詢或漸進式查詢,這更是紙本檢索工具所不能解決的。數字古籍目標應以紙本索引為向導,以應用為目標,將“知識發現”進行到底。應用是我們衡量古籍數字化工作的指標。
第四,為了實現知識發現,古籍數字化,乃至一切文獻數字化必須建立在深入標引和嚴格規范控制的基礎上。無標引、無規范控制的文本,其價值為零。因為只有經過深入標引和嚴格規范控制的數據庫才能產生再生資源,而再生資源經過有效的排序和篩選,才能實現知識發現。當然,這必須以既往的學術研究為基礎,以現代IT技術為工具。關于標引和規范控制,原本是現代圖書館學的題中應有之義,但近來IT技術的神話沖淡了相關的學術研究,現在我們才發現,深入標引和嚴格的規范控制是實現知識發現的必要手段。所以,我們必須破除IT技術的迷信,重新估價IT技術的功能與價值,并努力補上傳統學術中標引和規范控制這一課。和其他文獻相比,古籍的標引和規范控制更為復雜,可以認為,古籍的數字化是一切文獻數字化的特例,如果我們對于解決這個復雜特例有了完整的方案,那么其他文獻數字化解決方案就迎刃而解了。
胡適之先生認為傳統的經史研究存在范圍太狹窄,注重功力而忽略理解,缺乏參考比較的材料等積弊,故以清代三百年間第一流人才的心思精力,都用在經學的范圍內,卻只取得了一點點的成果,關鍵是缺少對古籍的系統整理,又不注重學術成果的積累,兩千四百多卷的《清經解》,大多是一堆流水爛帳,沒有條理,沒有系統,人人從“粵若稽古”、“關關雎鳩”說起,怪不得學者看了要望洋興嘆了[3]。針對清儒治學方法的缺陷,胡適之先生著重提出,必須系統地整理古籍,包括索引式、結帳式和專史式的整理。此后,學界編纂了多種引得、通檢、索引、匯編等工具書,部分完成了索引式整理的目標,拜前輩學者之賜,我們查閱古籍不知享受了多少便利。但是我們也發現,中國古籍汗牛充棟,經過系統整理的畢竟只是少數,方便的檢索工具也還嫌太少,離胡適之先生的標準還有相當的距離。即使是已有索引的古籍,我們用來解決具體問題時仍會感覺到種種不便。至于結帳式的整理,則尚未受到學術界的普遍重視,而在未有結帳式整理之前,所作的專史研究,其完整性、可靠性都值得懷疑。為了促進人類知識的有效積累和有效傳播,使我們的后代不必研究任何問題都從“粵若稽古”、“關關雎鳩”說起,我們才有必要從事文獻數字化的工作;此外,積極建設網上中文資源庫,打破某些國家或某種語言對網絡資源的壟斷,這將有利于中外學術文化的交流,樹立中國人的學術自信心和自尊心。總之,我們一切都應從長遠目標出發,而不應被暫時的商業利益所蒙蔽。
注釋:
[1]見高文《KDD:數據庫中的知識發現》,載《計算機世界》1998年37期,8月28日,技術專題版,D1頁。又朱廷劭《數據挖掘——極具發展前景的新領域》,載《計算機世界》1999年1期,1月4日,產品與技術版,C14頁。
[2]見朱廷劭、王軍《數據挖掘應用》,載《計算機世界》1998年37期,9月28日,技術專題版,D5,8頁。
[3]胡適《〈國學季刊〉發刊宣言》,原載《國學季刊》一卷一號,1923年1月,此據歐陽哲生編《胡適文集》三,5—17頁,北京大學出版社,1998年12月。
原刊《文津流觴》第八期,2002年7月 |