司馬遷之后,搜集和考辨史料,作為一種治史的基礎,為絕大多數史家所繼承,并逐漸形成考據之學。隨著信息技術的發展,古籍數字化熱潮方興未艾,從零星制作到規模開發;從初期的圖形掃描到字符數碼化;從目錄、文摘的制作到全文錄入;從制作單機版 CD發展為網絡版的數據庫。隨著OCR掃描技術的成熟、UNICODE編碼的統一、全文檢索軟件的完善以及Web技術的普及,以網絡為主要載體,古籍數字化與當代先進的信息技術的結合日益緊密。
一
中華民族創造了無比豐富的歷史文化遺產,古代典籍是中國歷史文化遺產最為重要的物質載體,是世界文化的重要組成部分。胡適先生認為傳統的經史研究存在范圍太狹窄,注重功力而忽略理解,缺乏參考比較的材料等積弊,故以清代三百年間第一流人才的心思精力,都用在經學的范圍內,所獲成果實不相稱,關鍵是缺少對古籍的系統整理,又不注重學術成果的積累,兩千四百多卷的《清經解》,大多是一堆流水爛賬,沒有條理,缺乏系統。針對清儒治學方法的缺陷,學界編纂了多種引得、通檢、索引、匯編等工具書,部分完成了索引式整理的目標,為我們查閱古籍提供了諸多便利。但是,中國古籍汗牛充棟,經過系統整理的畢竟只是少數,方便的檢索工具也還嫌太少。即使是已有索引的古籍,用來解決具體問題時仍會感到種種不便。
史料是歷史研究的基礎。每一個從事史學工作的人都要搜集和積累史料,過去最常用的方式就是抄錄卡片并加以分類,它基本上是按個人的需要輯錄并供個人使用的。人文學術研究是個性化很強的事業,一個人的精力和時間是有限的,將有限的時間、精力花費在浩繁、瑣碎的翻檢工作之中,就不能大幅度地提高學習和研究效率,學術進步自然也就困難了。因此,我們需要應用便捷、高效、準確的查詢工具為人文學術研究服務。
古籍數字資料的搜集與整理是一個完整的過程,它包括數字資料搜集范圍的確定,數字資料的篩選與鑒定。搜集過程中的各個環節并不一定嚴格地按上述先后次序,可以同時進行,例如一邊搜集,一邊鑒別等等,這要依具體情況而定。數字資料搜集完成以后,要對這些數字資料進行一番認真的鑒別。因為很難保證我們在很大的范圍中搜集到的所有數字資料都是可靠的,去偽存真,去粗取精,以保證數字資料的可靠性。關于數字資料鑒別的方法很多,如對數字資料所存書籍年代的考證,作者和版本的考證,文字和方法方面的鑒定等。這是每一位史學工作者的基本功,在這里我們不過多地去涉及它。
史學工作者計算機的主要用途之一,就是儲存數字資料和檢索數字資料,數字卡片已經取代了傳統的卡片,個人數字圖書館正在迅速豐富個人的藏書。計算機作為現代科學技術發展的結晶,為存貯、檢索、分析和處理大量史實提供了重要的技術保證。這就需要歷史學家與計算機專家密切配合,相互學習,取長補短,共同協作,把史學研究推向深入。
就現階段中國大陸的古籍數字資料應用來說,有喜有憂。一方面,信息技術的迅速發展,為古籍數字化提供了充分的技術條件。互聯網提高了電子文獻的檢索效率,擴大了服務范圍,便捷的信息傳遞節省了遠程通信費用。新一代高性能計算機的海量存儲和驚人的秒級運算能力,使我們再也不必為存儲空間和運行時間的矛盾而苦惱。通用UNICODE(統一字符編碼標準,采用雙字節對字符進行編碼)碼包含約6萬多個漢字,為漢字信息處理的國際化和標準化開辟了道路。非鍵盤輸入技術使文獻載體轉換方式發生了一場革命,例如自動識別輸入技術(ODR)使海量信息輸入的工作量大大降低,清華紫光公司所研制的非特定人手寫識別軟件僅用三個月時間就將一部《文淵閣本四庫全書》輸入計算機內,為同類工作積累了寶貴的技術財富。
另一方面,現有的網絡古籍數字資料分布極不平衡,絕大部分的網絡古籍數字資料庫集中在海外,大陸學者在使用上存在諸多不便:文字編碼不統一,會員資格受到限制,服務器連接也不夠通暢。就目前掌握的情況看,盡管大陸的軟件公司推出了各種版本的廿五史,還有四庫全書、中國基本古籍庫等煌煌巨制的檢索系統,但真正投入網絡運營的只有國學網等寥寥數家。究其原因,除了服務器數據庫運營技術復雜,費用相對昂貴外,網絡市場不夠健全是主要因素,許多商家寧肯用上千以至數萬的價格賣出光盤,以求盡快收回成本。而大陸無論是學者個人,還是文史研究機構,經費相對拮據,沒有能力支付軟件費用,因而造成惡性循環。從長遠看,借鑒海外網絡運營經驗,采用部分適當收費,部分免費開放的會員制運營,可能是一個比較有效的解決途徑。
二
古籍數字化需要具備怎樣的功能?其數據應當怎樣處理,使用何種技術才能保證它具備我們需要的功能呢?這些都是擺在我們面前的重要問題。
這里,我們所談的數字化文獻,不是為大眾提供普及讀本,而是為學術文化的繁榮奠定基礎,這應是我們制作和使用數字化文獻的共識。數字化文獻的功能不僅在于一般的信息查詢,更重要的是古籍文獻中的知識發現。它應符合各種國際通用標準,具有開放性,可以在網絡上傳輸,實現信息資源共享。古籍數字化的過程,基本上可以視為文獻全文數據庫的生成過程。一篇古籍文獻輸入計算機,就形成了無標引的全文數據庫,即半結構化的數據庫。目前,以中國古籍為內容的電子讀物多為此類產品,但這遠不能發揮計算機的技術優勢,也難以達到研究者的要求,其最大的缺陷就在于它不能像結構化數據庫一樣經由排序、篩選、分類和統計之類的管理過程產生再生資源,更談不上知識發現。因此,對古籍中的數據進行充分的分析和處理,制成結構化數據庫,與半結構化數據庫相結合,才是較為完美的方案。數字化古籍適合實現多途徑排檢功能,在確保信息查詢的查準率和查詢率的前提下,提供了實現海量信息中知識發現的可能。
古籍數字資料檢索結果的閱讀和輸出,也是關系到使用效率的一個非常重要的問題。例如,《四庫全書》的檢索結果必須通過閱讀原文才能知曉具體內容,不能集中顯示,給用戶使用帶來了一些麻煩。“孔子”的檢索結果高達23757卷、111641個匹配。有人做過統計,假定每個匹配的閱讀時間平均為1分鐘(加上復制相關資料、標點,實際一條資料的處理時間遠遠超過1分鐘),每天八小時不間斷地閱讀,則“孔子”需要花233天才能閱讀完畢。如果是通過網絡閱讀,耗時將更多。
有的檢索軟件提供了將檢索結果一次性全部輸出的功能,例如陜西師大的漢籍全文檢索系統,全部檢索結果和文獻出處可以一次性輸出為一個文本文件。檢索內容的輸出以關鍵詞所在段落為單位,因而有不少無用的文字信息需要刪除。對檢索獲得的文字內容的初步整理,我們可以利用EmEditor等文本工具中對檢索關鍵詞的高量顯示功能,突出顯示關鍵詞,無用的文字可以快速刪除。利用第三方軟件對檢索結果進行整理,與《四庫全書》在原文中復制一次、然后再粘貼一次相比,速度快了很多。
經過初步整理以后的數字資料大體上可以分為兩類:一是數據性資料,二是需要進行邏輯分類的文字。對數據性資料進行分析,是史學研究的重要內容。一般來說,這些歷史數據都是離散的,對它們的分析應依據統計學的原則來處理。可以利用數據庫軟件來做統計分析,內容一般包括:平均數、近似值、相關分析、回歸分析、時間序列、加權平均數和指數、分布規律的研究,等等。根據不同的情況,運用不同的統計方法就可以揭示出數據集合的整體特征,為我們認識這些數據的實質提供可靠的科學依據。
在古代典籍中,數據性資料只是少數,大量的是文字性的數字資料,這些文字性數字資料按照什么標準分類?用何種方式進行更進一步的整理?目前,尚沒有方便適用的軟件。數字資料的整理應根據研究需要而決定,整理的根本目的在于使用、檢索、研究的方便,省時省力。整理的方式有以下幾種:去粗取精,按性質歸類,按時間順序排比,按研究問題分組,等等。這里面有大量的工作可以利用計算機來完成,對軟件的要求是能夠方便地對數字資料進行分類、歸納、排比、篩選,方便進行邏輯分析。
不可否認,網絡中的浮躁和功利化傾向對文史研究質樸、謹嚴的學風造成了一定沖擊。個別學者以檢索代替研究,不核原文,不審背景,錯謬頻出,粗制濫造。但這不過是應用古籍數字資料的歧途,誤入歧途者應盡快回歸正道。古籍數字化給文史研究提供了一個豐富的學術寶藏,方便快捷的檢索功能,大大縮短了搜集資料的時間。我們要利用好這一寶藏,把節省的時間用于資料的分類、歸納、排比、篩選、考訂,這是在信息時代出現的新的研究方式,值得我們總結和提高的東西還很多。當然,除了掌握先進的電腦網絡知識,還必須具備扎實的學術功底,只有博聞強記,勤于思考,關于思考,才能融會貫通,否則再先進的檢索系統也只能是無的放矢。
【作者單位】河北師范大學歷史文化學院 |