歷史學家這一行業,我認為是在從事找尋、發掘與重構的工作,這是一項美妙的行業,但也是一項困難的行業,要做的好,必須投入相當的工作, 擁有許多不同領域的知識,以及具有一項真實的智識力量:好奇、想像、組織能力、清晰的表達,與公正不偏頗的思想,並具有對不同類型的人的感受力。 -Marc Bloch

2010-04-23

所謂的「完整」

06:10 Posted by sharpy No comments
開始參與數典計畫以來,在各種推廣資料庫的場合,最常被歷史學者質疑的問題是:我怎麼知道從裡頭檢索出來的資料是「完整」的?

這個質疑真是再正當不過了。這不正是歷史學者每天念茲在茲的工作:盡可能蒐集完整的資料,然後從中找出事情演變的脈絡。反過來說,歷史學者最害怕的,就是漏掉那關鍵的一份文件,造成整個詮釋都失了準頭。

以往對這個質疑的回答大概有幾個層面。

第一,以現在的資訊技術,只要文件中有出現過跟檢索詞彙一模一樣的詞彙,那麼一定可以找出來。換言之,從單一關鍵字檢索的環節而言,技術上沒有什麼問題。問題不在這裡。

第二,這個問題因此要丟回給研究者。因為你得到什麼結果,就取決於你下了什麼檢索的關鍵字。而檢索應該是一個複雜的過程,並不是下一個關鍵字就可能找出所有相關的文獻。相反地,你得先對問題本身有一些瞭解,掌握其中可能有的關鍵字;然後,從第一次的檢索結果中,再進一步挖掘其他的關鍵字。最後,你的檢索結果就會越來越完整。

第三,資料庫的建置者當然可以幫一些忙,比如建立所謂的權威檔。在此處,權威檔指的是:如梁啟超,又稱梁任公,又稱梁卓如,又稱飲冰室主人,那我們就把「梁啟超」、「梁任公」、「梁卓如」、「飲冰室主人」,都做同一個關鍵字,只要你輸入其中任何一個,資料庫系統就一併把其他的檢索結果都跑出來。建置權威檔,其實就解決「完整度」的問題而言,跟第二點的邏輯是一樣的。也就是說,還是把問題丟給史料的研究者。只不過,不是個別研究者自己找出某一個概念的不同表達方式,而是有一群人先把這個工作做完了。

(而這種把研究工作交給別人做的方式,當然有好處,但也永遠會存在一個問題,就是:你怎麼知道那個或那些人做的工作,是你要的呢?比如說,以上面的例子來講,我要找「梁啟超」相關的,但是我就是不要找有「梁任公」的,因為我想知道的是,梁啟超用「梁啟超」這個名字發表了哪些文章。這時候,系統幫我自動找出「梁任公」的文件,反倒是畫蛇添足了。)

最後,比較耍賴的答案是,有資料庫檢索後,資料只會比原來用手工找資料更多,更完整。所以不要問資料庫如果不完整怎麼辦。

最後一個說法的前提,是某某資料庫的資料真的很多,多到用人力是絕對看不完的。不然,歷史研究者還是可以用下列方式來反駁最後這個說法:「那我還不如自己看,比較不會有遺漏。」就算系統中的資料真的很多,但是歷史學者還是不太相信,透過「檢索」可以帶來更為「完整」的史料。

我們可以問說,可是人去讀書,就不會有遺漏嗎?難道你不會打個盹,失個神,就漏掉某一句關鍵嗎?歷史學者大概只能摸摸鼻子說,會阿。可是這並不能說服他們,用資料庫檢索就可以得到完整的結果,或許是更完整,可是還是不完整。反而更增添他們的焦慮:在這史料的茫茫大海中,是不是有什麼是我遺漏的?是不是有什麼關鍵,我就是沒發現?用單一詞彙檢索當然不夠,可是用兩個就夠嗎?用三個就夠嗎?用十個、一百個關鍵詞,再加上權威檔,檢索結果真的就完整了嗎?到頭來,研究者還是得把所有史料看過一遍,才能安心。

對號稱在發展「數位人文」的我們而言,這好像是一個不得不面對,卻又始終無法解決的問題。

一直到今天,我們開始有一點隱約的感覺:也許我們(不管是資訊的還是歷史的研究者)一開始的出發點就錯了?

會不會史料的「完整」,並不真的是一個急需解決的問題。

事實上,我們都幾乎可以說,史料永遠不可能完整。不過進一步細想,這個說法有幾個不同的內涵。首先,史料不可能完整,那是因為隨著時間前進,很多史料就是散佚、消失,永遠不可能尋回。所以,「完整」似乎是個幻象。

那「留存下來的史料」的史料呢?當歷史學者研究一個課題的時候,總是可以從「留存下來的史料」中,找到「完整」的資料吧?那如果一個資料庫盡可能地蒐集了「留存下來的史料」,配合資訊技術,應該可以把完整的資料都找出來。如果這樣講還是有點模糊,我們可以說,所謂找到「完整」的史料,比較精確的說法,就是把所有「相關」的史料找出來。所以上面的陳述就變成了:歷史學者總是可以在「留存下來的史料」中,找到與自己研究課題「相關」的史料吧?

這是這麼說真的就比較精確嗎?

問題在於,什麼是「相關」的史料?我們如何去定義「相關」?

事實上,我們幾乎可以說,所有事情(或概念)都是相關的。康熙皇帝跟朱一貴是相關的,這很明顯,因為他們有直接的互動。但是,比如說,「西發利亞條約」跟「八八風災」是不是相關呢?說不定是。因為西發利亞條約確立了近代國家的概念,而我們要對八八風災的救災進行評估的時候,就涉及了我們對近代國家救災的期待與標準。

可是這關係很遠阿。也許是很遠,但是還是有關,不是嗎?

那麼,或許「相關」或「不相關」的觀念,其實並不精確。沒有什麼東西是「不相關」的,只有「關係比較遠」的。

回顧一下我們前面的定義,如果史料的「完整」性,是把所有「相關」的東西找出來;而我們又相信,所有東西都是相關的;那麼所謂的完整,其實就無邊無際。無論你整個史料中,抽出哪一個概念(或文件),他都其他所有東西串在一起,好像一個大的網一樣,他們彼此之間都事實上是切不開的。

如果是這樣,那我們是不是應該拋棄「完整」這個概念?

因為不管你研究什麼課題,所謂「完整」的相關史料,都無異於「所有留存下來的史料」。

研究者可以說,雖然不存在「不相關」的史料,但是總是有「關係比較遠」的史料吧?我們就把那些「關係比較遠」的史料踢掉,留下「關係比較近」的史料囉。

但是,什麼是遠?什麼是近?在我們沒有對文獻進行全面的考察之前,我們怎麼知道哪些史料是「關係比較近的」?哪些又是「關係比較遠」的?標準究竟是哪裡呢?也許研究者今天覺得某某史料跟研究主題的關係比較遠,明天又覺得,其實關係很近,搞不好研究了一陣子之後,又覺得當初以為關係很遠的史料,其實是最關鍵的一份史料。那怎麼辦?

講了這麼一大堆,似乎是在自尋煩惱。你會說,歷史研究了這麼久,怎麼人家都沒有問題,就你有問題呢?本來人家作研究,就好像呼吸一樣自然,可是一旦你問他們,「你是怎麼呼吸的阿?」他不但答不出來,甚至連呼吸都不會了。

這麼說好像也沒錯。因為在以往,史料蒐集的「不完整」儘管也是個問題,但是,本來就沒有人會宣稱自己史料蒐集「完整」,頂多就是宣稱自己花了很多力氣,盡可能接近「完整」。反正在當時,沒有人真的知道「完整」是什麼一回事。所以「引用的文獻越多」,我們就相信是「越完整」。

但隨著數位化的進展,大家好像越來越在乎研究時候,史料的「完整」,越來越把「完整」當成一個重要的目標。因為我們(誤)以為,資料庫可以帶來了「完整」。

所以才會有一種說法,就是資料庫出來之後,最大的好處不是做了什麼新的議題,而是很快去簡證別人的研究中的「遺漏」。因為我們預設資料庫是找出來的東西是「完整」的,所以可以很快襯托出手工業研究時代的「遺漏」。反之,手工的「遺漏」,似乎只是一再強化資料庫的「完整」。

結果,一旦我們發現資料庫的檢索,其實並沒有辦法「完整」的時候,我們就會對這個東西產生質疑。

因此,我們又回到了一開始的質疑。

然後,相信資料庫可以完整的人,就開始想各種方式去盡可能接近「完整」。

然後,我們就陷入上述的困境,因為「完整」就是不可能。

有沒有什麼辦法呢?或許可以這樣定義:在資料庫中,所謂的相關,指的就是跟輸入關鍵字後,檢索的結果。我們就相信,任何一個關鍵字檢索結果,都有他一定的意義,因為他一定跟某一個詞彙是「相關」的。因為,更精確地說,這個詞彙一定有出現在文件中,他才會被找出來。唯有這樣,我們才可能說,這個結果是「完整」的。

如果從這個角度去思考,那歷史研究會變成什麼模樣呢?他或許解決不了現有的一些研究難題,不過他會發掘出什麼樣的歷史議題?

我想我得好好看一下金觀濤先生的書了。

0 意見:

Post a Comment