這一階段決定對哪些信息進行存檔,以及存儲的范圍和深度。與傳統(tǒng)媒體不同,對電子載體上信息的選取并沒有一個固定的法則,但是有相關(guān)的向?qū)Э梢砸姥?,這些向?qū)Э梢詭椭鷽Q定以下幾方面:
(1)選擇存檔對象
加拿大國家圖書館和澳大利亞國家圖書館都肯定了選擇向?qū)У闹匾?。因為網(wǎng)絡(luò)上的內(nèi)容紛繁復(fù)雜,因此需要通過向?qū)Т_定一個選取的原則,像加拿大國家圖書館的原則就是選擇有研究價值和文化繼承性的內(nèi)容。澳大利亞國家圖書館的PANORA項目,只存檔澳大利亞的互聯(lián)網(wǎng)出版內(nèi)容,但同時它也指出不可能對所有這些內(nèi)容都存檔,所以它也規(guī)定了相應(yīng)的向?qū)砑右赃x擇。
(2)確定存檔范圍
另一個與對象選取直接相關(guān)的問題就是確定范圍。因為并不是一個數(shù)字化作品的全部環(huán)節(jié)都值得存儲,尤其是針對一些龐大、復(fù)雜的互聯(lián)網(wǎng)站點來說,全盤存儲可能完全不必要,所以更需要對范圍時行界定。
還是以澳大利亞國圖書館的PANDORA項目為例,對于一個站點上一級或下一級的鏈接是否選取,完全取決內(nèi)容的需要。PANDORA的作法是將站點內(nèi)容分成若干部分,然而分別與向?qū)б笞鲗Ρ龋彩欠弦蟮木痛鏅n,反之剔除。當(dāng)然如果整個站點內(nèi)容都有價值,也會予以全部保存。
(3)對鏈接的存檔
在電子出版中廣泛使用著超級鏈接,所以還需確定這些鏈接及其內(nèi)容是否隨原文一起存檔。對于這一問題,各個項目回答各有不同。
大多數(shù)項目中都保存了鏈接(URL域名或其它標(biāo)志符),但并不保存鏈接所指向的內(nèi)容。以美國醫(yī)學(xué)院為例,它保存了所有嵌套在原文文本中的鏈接及參考資料,但并不保存鏈接的內(nèi)容,除非這些內(nèi)容也是原文中的一部分,或者本來就是要被存檔的。同樣,美國能源部科技信息辦公室也是這樣操作的,保存鏈接,但會剔除超出存檔項目的外部鏈接內(nèi)容。
略微不同的是加拿大國家圖書館,除了保存鏈接外,如果鏈接內(nèi)容與存檔文本在同一服務(wù)器上,它也會予以保存。在18個項目中,只有兩個非常例外,它們既保存外部鏈接也保存相關(guān)內(nèi)容,相當(dāng)這與這兩個項目的特殊目的有關(guān),如其中一個項目就是要保存互聯(lián)網(wǎng)的一個全部縮影,所以它把有關(guān)內(nèi)容全部囊括進來。
(4)更新存檔內(nèi)容
在對數(shù)字化信息進行存檔的同時,這些信息往往還在不斷更新,像一些長期站點,需要對存檔信息進行更新。那么更新的周期和范圍如何確定呢?這需要在存檔內(nèi)容和完整性、準(zhǔn)確性與成本消耗間找到一個平衡點,因為顯然,內(nèi)容更新、存檔內(nèi)容增加帶來的是存檔費用的上升。澳大利亞國家圖書館的作法是在“出版”項的每一個自動收集程度中加入了選項表格,選項包括:開/關(guān)、周、月、季、半年、每九個月一次、每年,具體選擇哪一個更新周期取決于預(yù)期的更改程度及整個站點的穩(wěn)定性。
(二)收集渠道
對于相關(guān)網(wǎng)絡(luò)信息的收集,有兩條基本渠道:手選和機選。在澳大利亞國家圖書館的項目中,所有站點都由人工瀏覽并加以選擇,工作人員會跟蹤這些站點在存檔之前的持續(xù)性。相反,瑞典的國家圖書館——皇家圖書館則采用機選自動方式,它所主持的Kultruarw項目定期通過一個自動裝置來搜集材料。而無需加以價值判斷。這些信息收集裝置會遍布瑞典的各個所知站點上尋找信息,當(dāng)然還包括國外站點上有關(guān)瑞典的信息,如旅游信息及瑞典兒品的網(wǎng)上外文譯本。雖然是自動收集,皇家圖書館還是設(shè)置優(yōu)先選擇期刊,固定文件,HTML頁面,而參考、用戶網(wǎng)絡(luò)組、ftp存檔、數(shù)據(jù)庫則退后考慮。
芬蘭國家圖書館,赫爾辛基大學(xué)的EVA項目使用的技術(shù)也與瑞典相似,但是EVA項目在實行自動收集時會遵循向?qū)е甘?。為了不使服?wù)器超載,EVA對同一站點兩次采集間的時間間隔作了限定。雖然這一限制是為了項目利益起見,EVA的開發(fā)者還是認(rèn)為其機制不夠完備、靈活,他們希望對具體的時間限制更為明確,落實到各個URL站點層面上。但是要實現(xiàn)這種靈活性要求為此建立一個數(shù)據(jù)式的應(yīng)用程序,并且可以由圖書館員加以修改。
(三) 數(shù)字化存檔文件的識別和編目
一旦確定了數(shù)字化存檔的對象,就有必要對其加以識別標(biāo)志并編目。識別標(biāo)志為尋找這些對象提供特定線索,并可鏈接要與其相關(guān)其它對象上。以metadata形式存在的編目會提供相關(guān)的結(jié)構(gòu)、接入等信息。
所有的存檔項目都會使用一些形式的metadata來描述,管理和保存存檔對象。在項目開發(fā)過程中一些常見的問題有,這些metadata是如何生成的,生成標(biāo)準(zhǔn)是什么,它們的應(yīng)用層次如何以及在何處存儲這些metadata。
在調(diào)研的18個項目中,大多數(shù)是在編目階段完全或部分生成metadata的,然而當(dāng)前人們越來越認(rèn)識到人工生成metadata是數(shù)字化存檔過程中的一個障礙,所以越來越趨向于自動生成機制。其中一個已嘗試這一操作的是美國環(huán)境保護組織開展的存檔項目,它直接從數(shù)字元素這一層次上衍生出metadata,另一個項目DITT也在metadata的自動生成系統(tǒng)上進行投資。
在選定的18個項目中,使用了各種各樣的metadata格式。大多數(shù)國家圖書館采用傳統(tǒng)的圖書館編目標(biāo)準(zhǔn)。像在澳大利亞國家圖書館的PANDORA項目中,電子文件完使用MARC編目,但同時針對網(wǎng)絡(luò)信息也采用一些新的簡化格式。EVA項目中使用的是一種類似Dublin Core的格式,預(yù)計以后一種像Dublin Core這樣簡化的格式將直接從出版商處獲,并運用于metadata,這樣就不再需要廣泛使用圖書館編目了。
這18個項目在從數(shù)據(jù)到metadata的過程中,使用的內(nèi)容標(biāo)準(zhǔn)更是種類繁多。國家圖書館傾向于使用傳統(tǒng)標(biāo)準(zhǔn)如AACR2,有一些地區(qū)已有的信息標(biāo)準(zhǔn),如經(jīng)度、緯度標(biāo)準(zhǔn),很容易編入到metadata內(nèi)容標(biāo)準(zhǔn)中來。但同時要指出,為了長期存儲需要對于一些特殊元素,仍需要專門功夫,尤其是一些非文本數(shù)據(jù),如圖像,視頻與多媒體。
Metadata的運用層次取決于數(shù)據(jù)類型及預(yù)期的訪問需求。數(shù)據(jù)組通常在文件層或收集層編目。電子期刊的文章可以分別加以編目,有時都不用在文章及期刊標(biāo)題層次上考慮metadata。另外在考慮主頁時會比較麻煩,因為必須確定metadata運用在哪一些次的頁面上。
在調(diào)研的18個項目中,metadata文件通常都是獨立于存檔文件單獨存儲的圖書館會把這些文件放在“公共訪問”目錄下,出版商由可能把它們放在書目或引言數(shù)據(jù)庫中。但也有一些例外,如對標(biāo)題、作者等信息作了標(biāo)簽的電子期刊,這類信息可以和文件存在一起,同時又可以摘取出來作目錄。
在對數(shù)字化存檔的討論過程中,有一個普遍關(guān)注的問題,那就是需要能在不同的metadata格式間轉(zhuǎn)換和使用。對于這一問題,ISO顧問組開發(fā)的OAIS(開放性存檔信息系統(tǒng),Open Archival Information System)參考模型作了嘗試,它給每一個存檔對象按其類型都添入了特定的metadata。
對于那些并非直接將數(shù)字化材料拷貝到存檔中來的情況,材料在網(wǎng)絡(luò)上從一個服務(wù)器到另一個服務(wù)器或從一個目錄到另一個目錄,這種轉(zhuǎn)換帶來URL域名的變化有很多后患,因為URL域名表示了信息的位置,當(dāng)這種標(biāo)識信息變化后,會導(dǎo)致源文件和鏈接文件不持續(xù)性。
雖然潛在一些問題,大多數(shù)存檔還是繼續(xù)使用URL來指明數(shù)字化對象的位置。然而也有一些項目作了改變,如OCLC存檔使用的是PURL,
共有 網(wǎng)友評論