我去聽了上午場。
這是一個非常驚人的資料庫,現在裡頭大概有十七億字。台大不久前安裝了最新版,整個功能介面,還有收錄的版本都有更新。主持整個計畫的劉俊文先生年紀不小,卻對各種電腦術語十分熟悉,實在給人一種奇妙的感覺。
他講了一些大陸古籍數位化的狀況。比如大陸最早是作「四庫全書」的數位化,但那是商業單位做的。之所以會選擇作「四庫」,並非出於學術的理由,而是商人覺得「四庫」是個金字招牌。事實上,「四庫」的內容因為被刪改得太多,就版本而言並不是很好的選擇。2001年才由北大等校的教授跟民間企業合作,發起中國古籍資料庫的建制計畫,配合清大的技術合作,發展OCR(自動辨識)等軟體。
不過,雖然目前的資料庫至少經過三校,內容錯誤還是不少。劉教授說,這一方面是當時異體字統一時犯的一些錯誤,一方面則是大陸的工作人員古典文化水準時在太差。他後來補充,目前因為北京人力成本不斷上漲,所以他們最後只好把工作包到黑龍江去。成本固然是降低了,但人力水準更差了,成果慘不忍睹。面對外界的批評,他坦承,內容的錯誤率的確是很高。有次他親自下海擔任校對,校了一天之後,實在發現太多錯誤,氣得血壓上升,結果因為中風住進醫院,躺了半個月。旁人趕忙勸他,別再親自幹校對了。但因此,他說非常歡迎大家糾錯。事實上已經被糾了不少錯。現場有人說,如果糾錯的話,能否換取免費使用?他說,盡量爭取,不過要由廠商決定,他也只能希望大家有熱心,多多幫忙。
他也說,古籍資料庫裡頭還有很多問題,他們也知道,不過有些事涉經費,他也只能希望大家多多包涵。比如有些圖書館對於珍本籍刊收費甚高,因此他們就算知道有較佳的版本,因為經費不足,也只能退而求其次。
但我覺得最驚人的不是古籍資料庫,而是他們目前持續做了十個大型資料庫,如「中國方志庫」(收錄十萬方志,一網打盡)、「中國譜牒庫」(不只祖譜,也有個人年譜和日記等等)、「中國金石庫」、「中國雅文庫」、「中國俗文庫」等等。還不只於此,他們克服了技術上的困難,建制了敦煌文獻、硃批奏摺等等。親自看到系統畫面,不能不覺得「這些真不得了」。
事實上以前說得資料庫號稱有多少字,都是有一些問題。這麼多字是有許許多多領域或時代拼湊起來的,換言之每一個領域分到的數量其實就那麼多。可是這幾個專題資料庫推出之後,一定會對歷史研究造成很大的衝擊。至少就我從前在近史所圖書館連續幾個月一本一本翻方志的工作經驗,大概大半會被取代了。
後來一位臺北大學文獻所的年輕老師上來發言,她一直強調希望資料庫價格可以再降一點,否則新設的學校真的負擔不起。她也喊話說,從長期考量來看,降價是必要且迫切的,因為日本也在建構類似的資料庫。但是「基於文化發言權,我們還是希望可以用中國人自己做的。」
不過台灣的位置又在哪裡呢?僅止於付大錢的使用者嗎?還是什麼呢?
0 意見:
Post a Comment