張軸材
兩年一度重聚首。衷心感謝國學網提供這樣的平臺,讓國學界的專家們和我們從事典籍數字化的工作者有一個良好的面對面交流的機會。
前不久,兩位巨星幾乎同時隕落了:任繼愈和季羨林,他們不僅是公認的大師,也是曾經給予過我們的典籍數字化事業諄諄教導和熱情鼓勵的恩師,所以特別地悲痛。
我們要記住的是,我們這一行,方向就是要“嘉惠學林”(任繼愈題字)、就是要讓更多的學者“如虎添翼”(季羨林語),我們本身不是文史專家,我們只是文史工作者的內容提供者(ICP)和服務提供者(SP)。 我們的服務做得好不好,就要看我們是否滿足使用者的需求,踏踏實實地向用戶提供了高質量的(數字化)內容,以及服務到位的數字化技術功能。
下面就典籍數字化的內容和技術兩方面做一匯報。
一、從上一屆國學會議到現在,書同文公司在典籍數字化內容方面,完成了這樣幾個規模較大的項目:
1.日本《漢方醫書大成》(2007年完成結項)
2.國家第一歷史檔案館數字化第二期工程
繼“全文數字化清代檔案文獻據庫第一期建設成果”合作后,雙方進一步深入組織開展了檔案文獻信息資源建設。建設項目自2007年上半年啟動,歷時2年多時間完成。近期即將鑒定全文數字化《軍機處上諭檔》。
3.故宮博物院陳設檔等數字化工程(正在進行中)
故宮博物院院藏《清宮陳設檔》記載了明清兩朝紫禁城皇家陳設檔案,是迄今為止最為完整故宮文物檔案,具有極其珍貴的文物歷史史料價值。
故宮博物院圖書館針對當前形勢的發展趨勢,通過長期慎重考察,決定采用走社會化合作的方式,委托專業化企業實施項目項目開發,探索了一條專業化制作開發、高效、低成本的歷史檔案數字化之路。經過雙方詳盡細致的洽商,憑借故宮博物院圖書館豐富的館藏,專業研究水平以及長期積累的豐富經驗,在朱賽虹館長精心的策劃指導下,在院領導的全力支持下,在雙方工作人員共同努力下使該項目得以順利開展,即將在今年60年國慶后正式在院內上線使用。
相信全文數字化《清宮陳設檔》上線,將為有關學者專家提供更加快捷便利的查詢手段,為開展相關業務的研究提供強大的利器。
4.《四部叢刊》09網絡增補版(2009上線,PPT發言將重點介紹)。在內容上,在《四部叢刊》2002年電子版的基礎上,開放了全部張元濟校勘記百余篇,同時,增加了中華書局《四部備要》的全部內容(一億三千萬字,作為“增補”)。至此,書同文公司有幸完成了古籍文獻的三個大部頭“四”(文淵閣四庫全書[注]、四部叢刊、四部備要)的數字化。
二、在數字化技術方面,我們開發了幾項頗受用戶歡迎的新功能,他們幾乎全都滲透在每個數字化項目中了。下面我將結合上面的數字化內容的展現特色和新技術功能作一介紹。
1.鑒于文獻的重要性,堅持原文與全文并存對照的模式,在可能范圍內實現保真。與此相關,必須堅持原版面豎排格式:
隨著古籍數字化工作的進展,發現除古籍善本版式特點外,明清歷史文獻檔案樣本也愈加豐富和復雜。這些文獻檔案表現出與古籍善本不同的特點。例如:“上諭”、“旨”、“硃批”、“圣祖”、“御筆”等字樣出現時,這些文字書寫都高于其他文字之上,以體現皇權的至高無尚;同樣的原因,大臣在個人名字落款前,也會用小字寫“臣”。
這在現代橫排版方式下是無法體現其歷史信息的.這樣,保持原版豎排(XML)就顯得極其重要了。
同時,確保圖象數據與XML數據的完整性
我們無法保證數字化后的數據幾十年后,有多少數字化軟件可以永久通用/適用。但是圖象數據、XML數據則可以確保這些經過精心制作的信息,長期留存下去(一定會有相應的各種轉換工具誕生)。
2.徹底的網絡展現,從C/S版過度到B/S。用戶無需安裝任何客戶端軟件。
3.提供基于Web的手寫識別系統(書同文“巧筆”),用戶無需記憶任何漢字書寫和拆分的規則,特別有利于輸入、查詢罕用字或不明發音的漢字;同時還可以順藤摸瓜地檢索和輸入各種關聯字。漢字識別在服務器端實現-云計算的概念的初步實現。
4.維護目錄的完整性
古籍善本、歷史文獻檔案不同于通常的搜索(無MetaData)。目錄完整反映了其中分類和時序關系。讀者通過瀏覽目錄可以很快清楚地了解一套完整叢書或檔案的全貌;而且有了這個目錄信息,搜索/檢索結果可以清晰地標明命中的出處。
5.跟蹤與適應各類瀏覽器:選用B/S的代價
B/S給讀者帶來的便利是不言而喻的,同時也附帶了維護成本。市場競爭的結果必然迫使瀏覽器不同廠家不斷升級改版。如何使B/S產品適用這些變化,做到兼容是不可回避問題。
6.多維助檢 支持人名、地名、職官以及關聯字檢索。
7.全文檢索自動關聯簡繁異
8.其他技術特點不再一一贅述。(見PPT)
書同文公司所制作的典籍數字化產品,均屬于珍本或善文獻資料,利用它們進行文史研究,求本溯源有著特別的意義。迄今為止,無論是 Google還是百度,在這方面還是個空白或弱項。
下面,我利用PPT和聯機演示談談幾個感悟:
1.源與流:保真的重要性;利用數字化珍本,進行求本溯源的研究。
2.C/S到B/S的演進的必要。
3.從“多維助檢”和關聯檢索談數字化工具與內容的結合。
4.在數字化典籍中如何實現“云計算”的理念。
誠懇地希望與會專家批評指導。
發布日期:2009-08-18