午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看

 

古籍?dāng)?shù)字資料的搜集與應(yīng)用

王文濤

  司馬遷之后,搜集和考辨史料,作為一種治史的基礎(chǔ),為絕大多數(shù)史家所繼承,并逐漸形成考據(jù)之學(xué)。隨著信息技術(shù)的發(fā)展,古籍?dāng)?shù)字化熱潮方興未艾,從零星制作到規(guī)模開發(fā);從初期的圖形掃描到字符數(shù)碼化;從目錄、文摘的制作到全文錄入;從制作單機版 CD發(fā)展為網(wǎng)絡(luò)版的數(shù)據(jù)庫。隨著OCR掃描技術(shù)的成熟、UNICODE編碼的統(tǒng)一、全文檢索軟件的完善以及Web技術(shù)的普及,以網(wǎng)絡(luò)為主要載體,古籍?dāng)?shù)字化與當(dāng)代先進(jìn)的信息技術(shù)的結(jié)合日益緊密。

  中華民族創(chuàng)造了無比豐富的歷史文化遺產(chǎn),古代典籍是中國歷史文化遺產(chǎn)最為重要的物質(zhì)載體,是世界文化的重要組成部分。胡適先生認(rèn)為傳統(tǒng)的經(jīng)史研究存在范圍太狹窄,注重功力而忽略理解,缺乏參考比較的材料等積弊,故以清代三百年間第一流人才的心思精力,都用在經(jīng)學(xué)的范圍內(nèi),所獲成果實不相稱,關(guān)鍵是缺少對古籍的系統(tǒng)整理,又不注重學(xué)術(shù)成果的積累,兩千四百多卷的《清經(jīng)解》,大多是一堆流水爛賬,沒有條理,缺乏系統(tǒng)。針對清儒治學(xué)方法的缺陷,學(xué)界編纂了多種引得、通檢、索引、匯編等工具書,部分完成了索引式整理的目標(biāo),為我們查閱古籍提供了諸多便利。但是,中國古籍汗牛充棟,經(jīng)過系統(tǒng)整理的畢竟只是少數(shù),方便的檢索工具也還嫌太少。即使是已有索引的古籍,用來解決具體問題時仍會感到種種不便。

  史料是歷史研究的基礎(chǔ)。每一個從事史學(xué)工作的人都要搜集和積累史料,過去最常用的方式就是抄錄卡片并加以分類,它基本上是按個人的需要輯錄并供個人使用的。人文學(xué)術(shù)研究是個性化很強的事業(yè),一個人的精力和時間是有限的,將有限的時間、精力花費在浩繁、瑣碎的翻檢工作之中,就不能大幅度地提高學(xué)習(xí)和研究效率,學(xué)術(shù)進(jìn)步自然也就困難了。因此,我們需要應(yīng)用便捷、高效、準(zhǔn)確的查詢工具為人文學(xué)術(shù)研究服務(wù)。

  古籍?dāng)?shù)字資料的搜集與整理是一個完整的過程,它包括數(shù)字資料搜集范圍的確定,數(shù)字資料的篩選與鑒定。搜集過程中的各個環(huán)節(jié)并不一定嚴(yán)格地按上述先后次序,可以同時進(jìn)行,例如一邊搜集,一邊鑒別等等,這要依具體情況而定。數(shù)字資料搜集完成以后,要對這些數(shù)字資料進(jìn)行一番認(rèn)真的鑒別。因為很難保證我們在很大的范圍中搜集到的所有數(shù)字資料都是可靠的,去偽存真,去粗取精,以保證數(shù)字資料的可靠性。關(guān)于數(shù)字資料鑒別的方法很多,如對數(shù)字資料所存書籍年代的考證,作者和版本的考證,文字和方法方面的鑒定等。這是每一位史學(xué)工作者的基本功,在這里我們不過多地去涉及它。

  史學(xué)工作者計算機的主要用途之一,就是儲存數(shù)字資料和檢索數(shù)字資料,數(shù)字卡片已經(jīng)取代了傳統(tǒng)的卡片,個人數(shù)字圖書館正在迅速豐富個人的藏書。計算機作為現(xiàn)代科學(xué)技術(shù)發(fā)展的結(jié)晶,為存貯、檢索、分析和處理大量史實提供了重要的技術(shù)保證。這就需要歷史學(xué)家與計算機專家密切配合,相互學(xué)習(xí),取長補短,共同協(xié)作,把史學(xué)研究推向深入。

  就現(xiàn)階段中國大陸的古籍?dāng)?shù)字資料應(yīng)用來說,有喜有憂。一方面,信息技術(shù)的迅速發(fā)展,為古籍?dāng)?shù)字化提供了充分的技術(shù)條件。互聯(lián)網(wǎng)提高了電子文獻(xiàn)的檢索效率,擴(kuò)大了服務(wù)范圍,便捷的信息傳遞節(jié)省了遠(yuǎn)程通信費用。新一代高性能計算機的海量存儲和驚人的秒級運算能力,使我們再也不必為存儲空間和運行時間的矛盾而苦惱。通用UNICODE(統(tǒng)一字符編碼標(biāo)準(zhǔn),采用雙字節(jié)對字符進(jìn)行編碼)碼包含約6萬多個漢字,為漢字信息處理的國際化和標(biāo)準(zhǔn)化開辟了道路。非鍵盤輸入技術(shù)使文獻(xiàn)載體轉(zhuǎn)換方式發(fā)生了一場革命,例如自動識別輸入技術(shù)(ODR)使海量信息輸入的工作量大大降低,清華紫光公司所研制的非特定人手寫識別軟件僅用三個月時間就將一部《文淵閣本四庫全書》輸入計算機內(nèi),為同類工作積累了寶貴的技術(shù)財富。

  另一方面,現(xiàn)有的網(wǎng)絡(luò)古籍?dāng)?shù)字資料分布極不平衡,絕大部分的網(wǎng)絡(luò)古籍?dāng)?shù)字資料庫集中在海外,大陸學(xué)者在使用上存在諸多不便:文字編碼不統(tǒng)一,會員資格受到限制,服務(wù)器連接也不夠通暢。就目前掌握的情況看,盡管大陸的軟件公司推出了各種版本的廿五史,還有四庫全書、中國基本古籍庫等煌煌巨制的檢索系統(tǒng),但真正投入網(wǎng)絡(luò)運營的只有國學(xué)網(wǎng)等寥寥數(shù)家。究其原因,除了服務(wù)器數(shù)據(jù)庫運營技術(shù)復(fù)雜,費用相對昂貴外,網(wǎng)絡(luò)市場不夠健全是主要因素,許多商家寧肯用上千以至數(shù)萬的價格賣出光盤,以求盡快收回成本。而大陸無論是學(xué)者個人,還是文史研究機構(gòu),經(jīng)費相對拮據(jù),沒有能力支付軟件費用,因而造成惡性循環(huán)。從長遠(yuǎn)看,借鑒海外網(wǎng)絡(luò)運營經(jīng)驗,采用部分適當(dāng)收費,部分免費開放的會員制運營,可能是一個比較有效的解決途徑。

  古籍?dāng)?shù)字化需要具備怎樣的功能?其數(shù)據(jù)應(yīng)當(dāng)怎樣處理,使用何種技術(shù)才能保證它具備我們需要的功能呢?這些都是擺在我們面前的重要問題。

  這里,我們所談的數(shù)字化文獻(xiàn),不是為大眾提供普及讀本,而是為學(xué)術(shù)文化的繁榮奠定基礎(chǔ),這應(yīng)是我們制作和使用數(shù)字化文獻(xiàn)的共識。數(shù)字化文獻(xiàn)的功能不僅在于一般的信息查詢,更重要的是古籍文獻(xiàn)中的知識發(fā)現(xiàn)。它應(yīng)符合各種國際通用標(biāo)準(zhǔn),具有開放性,可以在網(wǎng)絡(luò)上傳輸,實現(xiàn)信息資源共享。古籍?dāng)?shù)字化的過程,基本上可以視為文獻(xiàn)全文數(shù)據(jù)庫的生成過程。一篇古籍文獻(xiàn)輸入計算機,就形成了無標(biāo)引的全文數(shù)據(jù)庫,即半結(jié)構(gòu)化的數(shù)據(jù)庫。目前,以中國古籍為內(nèi)容的電子讀物多為此類產(chǎn)品,但這遠(yuǎn)不能發(fā)揮計算機的技術(shù)優(yōu)勢,也難以達(dá)到研究者的要求,其最大的缺陷就在于它不能像結(jié)構(gòu)化數(shù)據(jù)庫一樣經(jīng)由排序、篩選、分類和統(tǒng)計之類的管理過程產(chǎn)生再生資源,更談不上知識發(fā)現(xiàn)。因此,對古籍中的數(shù)據(jù)進(jìn)行充分的分析和處理,制成結(jié)構(gòu)化數(shù)據(jù)庫,與半結(jié)構(gòu)化數(shù)據(jù)庫相結(jié)合,才是較為完美的方案。數(shù)字化古籍適合實現(xiàn)多途徑排檢功能,在確保信息查詢的查準(zhǔn)率和查詢率的前提下,提供了實現(xiàn)海量信息中知識發(fā)現(xiàn)的可能。

  古籍?dāng)?shù)字資料檢索結(jié)果的閱讀和輸出,也是關(guān)系到使用效率的一個非常重要的問題。例如,《四庫全書》的檢索結(jié)果必須通過閱讀原文才能知曉具體內(nèi)容,不能集中顯示,給用戶使用帶來了一些麻煩。“孔子”的檢索結(jié)果高達(dá)23757卷、111641個匹配。有人做過統(tǒng)計,假定每個匹配的閱讀時間平均為1分鐘(加上復(fù)制相關(guān)資料、標(biāo)點,實際一條資料的處理時間遠(yuǎn)遠(yuǎn)超過1分鐘),每天八小時不間斷地閱讀,則“孔子”需要花233天才能閱讀完畢。如果是通過網(wǎng)絡(luò)閱讀,耗時將更多。

  有的檢索軟件提供了將檢索結(jié)果一次性全部輸出的功能,例如陜西師大的漢籍全文檢索系統(tǒng),全部檢索結(jié)果和文獻(xiàn)出處可以一次性輸出為一個文本文件。檢索內(nèi)容的輸出以關(guān)鍵詞所在段落為單位,因而有不少無用的文字信息需要刪除。對檢索獲得的文字內(nèi)容的初步整理,我們可以利用EmEditor等文本工具中對檢索關(guān)鍵詞的高量顯示功能,突出顯示關(guān)鍵詞,無用的文字可以快速刪除。利用第三方軟件對檢索結(jié)果進(jìn)行整理,與《四庫全書》在原文中復(fù)制一次、然后再粘貼一次相比,速度快了很多。

  經(jīng)過初步整理以后的數(shù)字資料大體上可以分為兩類:一是數(shù)據(jù)性資料,二是需要進(jìn)行邏輯分類的文字。對數(shù)據(jù)性資料進(jìn)行分析,是史學(xué)研究的重要內(nèi)容。一般來說,這些歷史數(shù)據(jù)都是離散的,對它們的分析應(yīng)依據(jù)統(tǒng)計學(xué)的原則來處理。可以利用數(shù)據(jù)庫軟件來做統(tǒng)計分析,內(nèi)容一般包括:平均數(shù)、近似值、相關(guān)分析、回歸分析、時間序列、加權(quán)平均數(shù)和指數(shù)、分布規(guī)律的研究,等等。根據(jù)不同的情況,運用不同的統(tǒng)計方法就可以揭示出數(shù)據(jù)集合的整體特征,為我們認(rèn)識這些數(shù)據(jù)的實質(zhì)提供可靠的科學(xué)依據(jù)。

  在古代典籍中,數(shù)據(jù)性資料只是少數(shù),大量的是文字性的數(shù)字資料,這些文字性數(shù)字資料按照什么標(biāo)準(zhǔn)分類?用何種方式進(jìn)行更進(jìn)一步的整理?目前,尚沒有方便適用的軟件。數(shù)字資料的整理應(yīng)根據(jù)研究需要而決定,整理的根本目的在于使用、檢索、研究的方便,省時省力。整理的方式有以下幾種:去粗取精,按性質(zhì)歸類,按時間順序排比,按研究問題分組,等等。這里面有大量的工作可以利用計算機來完成,對軟件的要求是能夠方便地對數(shù)字資料進(jìn)行分類、歸納、排比、篩選,方便進(jìn)行邏輯分析。

  不可否認(rèn),網(wǎng)絡(luò)中的浮躁和功利化傾向?qū)ξ氖费芯抠|(zhì)樸、謹(jǐn)嚴(yán)的學(xué)風(fēng)造成了一定沖擊。個別學(xué)者以檢索代替研究,不核原文,不審背景,錯謬頻出,粗制濫造。但這不過是應(yīng)用古籍?dāng)?shù)字資料的歧途,誤入歧途者應(yīng)盡快回歸正道。古籍?dāng)?shù)字化給文史研究提供了一個豐富的學(xué)術(shù)寶藏,方便快捷的檢索功能,大大縮短了搜集資料的時間。我們要利用好這一寶藏,把節(jié)省的時間用于資料的分類、歸納、排比、篩選、考訂,這是在信息時代出現(xiàn)的新的研究方式,值得我們總結(jié)和提高的東西還很多。當(dāng)然,除了掌握先進(jìn)的電腦網(wǎng)絡(luò)知識,還必須具備扎實的學(xué)術(shù)功底,只有博聞強記,勤于思考,關(guān)于思考,才能融會貫通,否則再先進(jìn)的檢索系統(tǒng)也只能是無的放矢。

作者單位】河北師范大學(xué)歷史文化學(xué)院

 
主站蜘蛛池模板: 正宁县| 平邑县| 景宁| 镇远县| 密山市| 定襄县| 泗洪县| 伊金霍洛旗| 故城县| 察哈| 高要市| 民勤县| 红桥区| 连平县| 本溪市| 潼南县| 怀柔区| 瓮安县| 奉化市| 海城市| 河南省| 龙江县| 罗江县| 清涧县| 辽阳县| 城固县| 日照市| 舟山市| 昌邑市| 宜兰市| 伊宁市| 博乐市| 华容县| 吴川市| 涡阳县| 武清区| 体育| 闸北区| 巴南区| 辽阳县| 平泉县|