專利名稱:在可拆卸海量存儲(chǔ)介質(zhì)上制作檔案的方法及檔案服務(wù)器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在數(shù)字圖書館中使用的在可拆卸海量存儲(chǔ)介質(zhì)上制作數(shù)字化檔案的方法,并且涉及用于將這種可拆卸海量存儲(chǔ)介質(zhì)上的數(shù)字化檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中的數(shù)字化檔案服務(wù)器。
數(shù)字圖書館是“信息高速公路”的一個(gè)重要部分。一般來說,數(shù)字圖書館主要由網(wǎng)絡(luò)、數(shù)據(jù)庫服務(wù)器、海量存儲(chǔ)器、用戶界面等部分組成。通常,對(duì)于一份檔案資料,其進(jìn)入數(shù)字圖書館的過程如下1.通過人工錄入、光電識(shí)別、電子掃描、數(shù)字錄音/錄象等方式將檔案資料數(shù)字化;2.將已數(shù)字化的檔案資料存儲(chǔ)到數(shù)字圖書館的海量存儲(chǔ)器池中;3.提取有關(guān)此份檔案資料的著錄項(xiàng)目以及已數(shù)字化的檔案資料在本數(shù)字圖書館的海量存儲(chǔ)介質(zhì)中的物理或邏輯地址,并將著錄項(xiàng)目和物理或邏輯地址登錄在數(shù)字圖書館對(duì)應(yīng)的數(shù)據(jù)庫中。
一份檔案一旦進(jìn)入數(shù)字圖書館,讀者或用戶就可以通過連接在網(wǎng)絡(luò)上的計(jì)算機(jī)終端訪問數(shù)字圖書館,以獲取所需資料。
在現(xiàn)今的“信息高速公路”環(huán)境下,人們除了利用網(wǎng)絡(luò)直接傳輸進(jìn)行信息交流之外,主要是通過可拆卸的海量存儲(chǔ)介質(zhì)作為物理載體進(jìn)行信息交流。在目前,CD-ROM是最重要的媒體之一。在數(shù)字圖書館中,論文、照片、電影、音樂以及其他檔案資料常常被數(shù)字化后存儲(chǔ)于CD-ROM中,形成CD-ROM檔案。然而目前,CD-ROM檔案存在如下幾個(gè)問題1.檔案在CD-ROM上的著錄格式不統(tǒng)一;2.CD-ROM上沒有相應(yīng)的檔案標(biāo)注信息;3.必須通過人工將CD-ROM檔案登錄到電子化數(shù)字圖書館的數(shù)據(jù)庫管理系統(tǒng)中。
以上這些問題帶來的后果是將CD-ROM檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中時(shí)將浪費(fèi)大量的人力、物力和時(shí)間,為一個(gè)特定的數(shù)字圖書館制作的CD-ROM檔案只能在該系統(tǒng)中使用。如果要將一個(gè)數(shù)字圖書館的CD-ROM檔案使用在另一個(gè)數(shù)字圖書館中,則需要人工地對(duì)CD-ROM檔案進(jìn)行數(shù)據(jù)庫登錄。這樣,CD-ROM檔案的傳播和交流受到了極大的限制。
本發(fā)明第一個(gè)目的在于提供一種在可拆卸海量存儲(chǔ)介質(zhì)上制作數(shù)字化檔案的方法。
本發(fā)明第二個(gè)目的在于提供一種數(shù)字化檔案服務(wù)器,用于將可拆卸海量存儲(chǔ)介質(zhì)上的數(shù)字化檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中。
為實(shí)現(xiàn)上述第一目的,本發(fā)明提供一種在可拆卸海量存儲(chǔ)介質(zhì)上制作數(shù)字化檔案的方法,包括以下步驟將檔案數(shù)字化為數(shù)字化檔案;提取檔案的著錄信息;將所述數(shù)字化檔案和所述著錄信息存儲(chǔ)到所述可拆卸海量存儲(chǔ)介質(zhì)上。
為實(shí)現(xiàn)上述第二目的,本發(fā)明提供一種數(shù)字化檔案服務(wù)器,用于將可拆卸海量存儲(chǔ)介質(zhì)上的數(shù)字化檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中,該數(shù)字化檔案服務(wù)器包括用于讀取可拆卸海量存儲(chǔ)介質(zhì)上所存儲(chǔ)的著錄信息的裝置;用于將所述著錄信息登錄到數(shù)字圖書館的數(shù)據(jù)庫表中的裝置。
利用本發(fā)明的方法,可以統(tǒng)一數(shù)字化檔案在可拆卸海量存儲(chǔ)介質(zhì)上的著錄格式,便于各數(shù)字圖書館之間交流可拆卸海量存儲(chǔ)介質(zhì)上的數(shù)字化檔案。在數(shù)字圖書館中利用本發(fā)明的檔案服務(wù)器,可以將可拆卸海量存儲(chǔ)介質(zhì)上的數(shù)字化檔案自動(dòng)地登錄到數(shù)字圖書館的數(shù)據(jù)庫管理系統(tǒng)中,節(jié)省了大量的人力、物力和時(shí)間。
通過以下詳細(xì)描述,并結(jié)合附圖,本發(fā)明的其他優(yōu)點(diǎn)、特征將會(huì)更加明顯,其中
圖1示出了本發(fā)明檔案服務(wù)器在常規(guī)數(shù)字圖書館中的一種應(yīng)用;圖2是在本發(fā)明方法和檔案服務(wù)器中使用的光盤檔案目錄文件的一種文件格式;圖3是圖2的文件格式中所含著錄條目的一種格式;圖4是圖3的條目格式中所含檔案項(xiàng)目的一種格式;圖5是本發(fā)明的在可拆卸海量存儲(chǔ)介質(zhì)上制作數(shù)字化檔案的方法的一種流程圖;圖6是本發(fā)明的數(shù)字化檔案服務(wù)器的一種工作流程圖。
下面結(jié)合附圖對(duì)本發(fā)明的一種實(shí)施方式進(jìn)行詳細(xì)說明。
本發(fā)明中所采用的可拆卸海量存儲(chǔ)介質(zhì)可以是CD-ROM、PD、CD-R和DVD等。對(duì)于這些不同的存儲(chǔ)介質(zhì),應(yīng)用本發(fā)明的方法和檔案服務(wù)器時(shí)原理是一樣的。下面,雖然以CD-ROM為例進(jìn)行說明,但是并不構(gòu)成對(duì)本發(fā)明的限制。
圖1是例示將本發(fā)明的檔案服務(wù)器應(yīng)用在數(shù)字圖書館中的示意圖。標(biāo)號(hào)1代表用戶終端,標(biāo)號(hào)2代表網(wǎng)絡(luò),標(biāo)號(hào)3代表數(shù)字圖書館服務(wù)器,標(biāo)號(hào)4代表數(shù)據(jù)庫,標(biāo)號(hào)5代表本發(fā)明的檔案服務(wù)器,標(biāo)號(hào)6代表光盤庫驅(qū)動(dòng)器,標(biāo)號(hào)7代表用于存放數(shù)字化檔案的海量存儲(chǔ)器池(本例中,為光盤庫)。
在光盤庫7中存有大量光盤,每張光盤上的內(nèi)容包括兩部分,即光盤頭和光盤體。光盤頭由一組光盤檔案目錄文件組成,這組光盤檔案目錄文件是光盤檔案的總攬和概要。檔案目錄文件的格式將在后文參照?qǐng)D2、3、4加以描述。光盤體由一組數(shù)字化檔案文件組成。以上兩部分的內(nèi)容是利用本發(fā)明的方法在光盤上制作的。
光盤庫驅(qū)動(dòng)器6能夠根據(jù)檔案服務(wù)器5的命令,從光盤庫7選擇一張光盤,讀取光盤頭中的光盤檔案目錄文件,將目錄文件中所含的檔案著錄信息及相應(yīng)數(shù)字化檔案的地址信息登錄到數(shù)據(jù)庫4中。如圖所示,本發(fā)明的檔案服務(wù)器5在體系結(jié)構(gòu)上位于數(shù)據(jù)庫4和光盤庫驅(qū)動(dòng)器6之間。檔案服務(wù)器5的工作流程將在下文參照?qǐng)D6詳細(xì)描述。
圖2是本發(fā)明的方法和檔案服務(wù)器使用的光盤檔案目錄文件的一種文件格式。光盤檔案目錄文件是在進(jìn)行一次光盤著錄時(shí)形成的檔案條目集文件,它說明了各光盤著錄條目及其在該文件中的排列順序,該文件是光盤檔案自動(dòng)進(jìn)入數(shù)字圖書館并提供檢索依據(jù)的工具。一般來說,為了便于分批制作數(shù)字化檔案,并充分利用光盤存儲(chǔ)空間,在光盤上形成一組檔案目錄文件及相應(yīng)的數(shù)字化檔案。
一個(gè)光盤檔案目錄文件分為三部分,如圖2所示,為文件頭201,文件體202和文件結(jié)束符203。
文件頭202包括本目錄文件所涉及的檔案種類數(shù)2011、各類檔案信息的依次說明2012和本目錄文件涉及的檔案?jìng)€(gè)數(shù)2013。對(duì)于每一類檔案,檔案信息的說明包括關(guān)于該類檔案歸檔的建議(即其在數(shù)據(jù)庫中的記錄信息),該類檔案的個(gè)數(shù),該類檔案中所有檔案的著錄條目名稱。
如圖2所示,在文件頭201中包括以下內(nèi)容檔案目錄文件所說明的檔案的種類數(shù)(m);\n關(guān)于第1類檔案歸檔的建議;\n第1類檔案著錄項(xiàng)目的個(gè)數(shù)(m1);\n第1類檔案第1個(gè)著錄項(xiàng)目名;\n第1類檔案第m1個(gè)著錄項(xiàng)目名;\n關(guān)于第2類檔案歸檔的建議;\n第2類檔案著錄項(xiàng)目的個(gè)數(shù)(m2);\n第2類檔案第1個(gè)著錄項(xiàng)目名;\n第2類檔案第m2個(gè)著錄項(xiàng)目名;\n關(guān)于第m類檔案歸檔的建議;\n第m類檔案著錄項(xiàng)目的個(gè)數(shù)(mm);\n第m類檔案第1個(gè)著錄項(xiàng)目名;\n第m類檔案第mm個(gè)著錄項(xiàng)目名;\n本檔案目錄文件所說明的檔案的個(gè)數(shù)(即條目的個(gè)數(shù)k)文件體202由一組檔案條目組成,條目的個(gè)數(shù)與檔案?jìng)€(gè)數(shù)2013相等。每一條目的格式將在后文參照?qǐng)D3描述。
文件結(jié)束符203是一個(gè)ASCII碼EOF。
如圖所示,在文件頭201中,每一項(xiàng)之后都隨一個(gè)符號(hào)“\n”表示行尾,根據(jù)操作系統(tǒng)的不同,“\n”有不同的含義,如在基于MS-DOS的系統(tǒng)中表示回車和換行兩個(gè)字符,而在基于UNIX的系統(tǒng)中表示一個(gè)回車符。后文所述的“\n”與這里的含義相同。
圖3是圖2中文件體202中檔案條目的一種格式。光盤著錄條目是單份文件著錄的結(jié)果,它說明了著錄項(xiàng)目及其排列順序。如圖所示,每一條目包括三部分,即本檔案的卷號(hào)、本檔案所涉及的所有項(xiàng)目、條目檔案體的文件名(含路徑名)。
圖4是圖3中所含項(xiàng)目的一種格式。光盤檔案著錄項(xiàng)目是根據(jù)光盤的易讀難寫的特性選擇的能充分揭示檔案內(nèi)容和特性并便于檢索的記錄事項(xiàng),它說明各著錄項(xiàng)目的名稱、內(nèi)容及排列順序。如圖所示,每一項(xiàng)目是一個(gè)以“\n”結(jié)束的字節(jié)流,字節(jié)流代表光盤著錄項(xiàng)目的內(nèi)容。
圖5是本發(fā)明的在可拆卸海量存儲(chǔ)介質(zhì)上制作數(shù)字化檔案的方法的一種實(shí)施流程圖。該實(shí)施從步驟501開始。在步驟502提示是否開始制作一批新檔案。如果回答為“是”,則進(jìn)入步驟504,否則由步驟503退出。在步驟504,通過掃描、照相、文字錄入等方式對(duì)一個(gè)檔案進(jìn)行數(shù)字化,然后進(jìn)入步驟505。在步驟505,判斷是否已將本批檔案全部數(shù)字化。如果在步驟505判定已經(jīng)將本批全部檔案數(shù)字化,則進(jìn)入步驟506,否則返回步驟504。在步驟506,采集本批檔案的著錄數(shù)據(jù),制作本批檔案的檔案目錄文件(檔案目錄文件的一種格式如上文參照?qǐng)D2、3和4所述)。進(jìn)入步驟507后,判斷緩沖區(qū)是否夠用。如果判定緩沖區(qū)夠用,則進(jìn)入步驟509,否則進(jìn)入步驟508。在步驟509,將本批檔案及相應(yīng)目錄文件存入緩沖區(qū),然后返回步驟502,進(jìn)行下一批檔案的制作過程。在步驟508,將緩沖區(qū)中的檔案及相應(yīng)目錄文件轉(zhuǎn)存于一個(gè)可拆卸海量存儲(chǔ)介質(zhì)中,清空緩沖區(qū),然后進(jìn)入步驟509。
在上述實(shí)施中,緩沖區(qū)是在可擦寫存儲(chǔ)介質(zhì)上(如硬盤)的一個(gè)大小與相應(yīng)可拆卸海量存儲(chǔ)介質(zhì)一致的存儲(chǔ)空間。并且假定每批檔案及其目錄文件所占空間不會(huì)超過一個(gè)可拆卸海量存儲(chǔ)介質(zhì)的存儲(chǔ)容量。
在同一個(gè)可拆卸海量存儲(chǔ)介質(zhì)(如光盤)上,可以多次利用上述實(shí)施,對(duì)多個(gè)檔案分幾次進(jìn)行著錄。在此介質(zhì)上形成一組檔案目錄文件。這樣,有助于存儲(chǔ)介質(zhì)讀寫系統(tǒng)充分利用此介質(zhì)的容量。
在本實(shí)施方式中,第一次著錄時(shí)形成的檔案目錄文件的文件名為DOCS.001。以后可能進(jìn)行的第二次或第三次著錄時(shí)所形成的檔案目標(biāo)文件的文件名分別為DOCS.002,DOCS.003,等等。所有這些檔案目錄文件構(gòu)成一組擋案目錄文件。
為了進(jìn)一步說明本發(fā)明的上述實(shí)施方法和上述檔案目錄文件的格式,下面舉一個(gè)例子。
現(xiàn)有兩部紀(jì)錄短片。其一是《周總理訪問朝鮮》,中國新聞紀(jì)錄制片廠攝制,1971年5月。其二是《小麥種植)》,中國農(nóng)業(yè)電影制片廠攝制,1980年12月?,F(xiàn)欲將這兩部電影數(shù)字化,并放入某數(shù)字圖書館,以提供在線服務(wù)。
現(xiàn)在,根據(jù)本發(fā)明的上述實(shí)施方法制作數(shù)字化檔案。
首先,用數(shù)字?jǐn)z影機(jī)將這兩部電影數(shù)字化為文件“zhou.mpg”和“xiao.mpg”,并存于“緩沖區(qū)”中(假設(shè)這兩個(gè)文件所占存儲(chǔ)空間的大小沒有超過“緩沖區(qū)”大小,并假設(shè)“緩沖區(qū)”中仍有空間可以存放下面將要形成的檔案目錄文件)。然后,采集著錄數(shù)據(jù),制作檔案目錄文件。假定《周總理訪問朝鮮》應(yīng)該登錄在“新聞?dòng)捌睌?shù)據(jù)庫中,其著錄項(xiàng)目根據(jù)檔案著錄標(biāo)準(zhǔn)選為“片名”,“攝制日期”,“制片廠”。假定《小麥種植》應(yīng)該登錄在“科技影片”數(shù)據(jù)庫中,其著錄項(xiàng)目應(yīng)為“片名”,“攝制日期”,“制片廠”。注意,著錄項(xiàng)目是根據(jù)檔案著錄標(biāo)準(zhǔn)選定的,并與相應(yīng)數(shù)據(jù)庫表中的域名一致。這樣,檔案目錄文件的內(nèi)容如下(注檔案目錄文件是一個(gè)文本文件,括號(hào)中的文字為對(duì)文件數(shù)據(jù)的說明,并非文件體)(文件開始)2\n (本檔案目錄文件說明兩類檔案)新聞?dòng)捌琝n(第1類檔案為新聞?dòng)捌?3\n (第1類檔案有3個(gè)著錄項(xiàng)目)片名\n(第1類檔案的第1個(gè)著錄項(xiàng)目名為“片名”)攝制日期\n(第1類檔案的第2個(gè)著錄項(xiàng)目名為“攝制日期”)制片廠\n (第1類檔案的第3個(gè)著錄項(xiàng)目名為“制片廠”)科技影片\n(第2類檔案為科技影片)3\n (第2類檔案有3個(gè)著錄項(xiàng)目)片名\n(第2類檔案的第1個(gè)著錄項(xiàng)目名為“片名”)攝制日期\n(第2類檔案的第2個(gè)著錄項(xiàng)名為“攝制日期”)制片廠\n (第2類檔案的第3個(gè)著錄項(xiàng)名為“制片廠”)2\n (本檔案目錄文件說明兩個(gè)檔案)(第1個(gè)條目)周總理訪問朝鮮\n (第1個(gè)條目的“片名”)1971.5\n (第1個(gè)條目的“攝制日期”)中國新聞紀(jì)錄制片廠\n (第1個(gè)條目的“制片廠”)zhou.mpg (第1個(gè)條目檔案體的文件名)(第2個(gè)條目)小麥種植\n(第2個(gè)條目的“片名”)1980.12\n (第2個(gè)條目的“攝制日期”)中國農(nóng)業(yè)電影制片廠\n (第2個(gè)條目的“制片廠”)xiao.mpg (第2個(gè)條目檔案體的文件名)(文件結(jié)束)EOF (本檔案目錄文件的結(jié)束符)假定這是第1批寫入“緩沖區(qū)”的檔案,則制作好的檔案目錄文件的文件名取為“DOCS.001”,并將其寫入緩沖區(qū)。
假定緩沖區(qū)已沒有空間存儲(chǔ)第2批檔案了,則將緩沖區(qū)中的內(nèi)容寫入一個(gè)相應(yīng)的可拆卸海量存儲(chǔ)介質(zhì)(如一張CD)中。這時(shí),該張CD中含有三個(gè)文件,即DOCS.001,zhou.mpg和xiao.mpg。
至此,完成了在可拆卸海量存儲(chǔ)介質(zhì)上的檔案制作。
圖6是本發(fā)明的數(shù)字化檔案服務(wù)器的一種工作流程圖。在步驟601,啟動(dòng)數(shù)字化檔案服務(wù)器。在步驟602,判斷在光盤庫上是否有未經(jīng)登錄的CD-ROM。如果,在步驟602中判定有未經(jīng)登錄的CD-ROM,則進(jìn)入步驟603,否則由步驟606退出。在步驟603,讀入該CD-ROM中的每一個(gè)檔案目錄文件。然后在步驟604,逐一分析檔案目錄文件,并將該文件中所記錄的名類檔案中的各個(gè)檔案的相關(guān)數(shù)據(jù)寫入到相應(yīng)的數(shù)據(jù)庫的表中。之后,在步驟605中判斷是否還有其他檔案目錄文件未被分析。如果在步驟605中判定還有其他檔案目錄文件未被分析,則返回步驟603,否則由步驟606結(jié)束登錄過程。
下面,以前面的例子說明上述檔案服務(wù)器的工作流程。
將按照上述方法制作的CD插入數(shù)字圖書館的光盤庫中。
啟動(dòng)“數(shù)字化檔案服務(wù)器”,開始新CD的登錄。
“數(shù)字化檔案服務(wù)器”查找光盤庫,并發(fā)現(xiàn)了該未經(jīng)登錄的CD。
“數(shù)字化檔案服務(wù)器”打開CD上的檔案目錄文件DOCS.001,并分析它,將兩個(gè)檔案的著錄數(shù)據(jù)分別填入數(shù)字圖書館中的“新聞?dòng)捌睌?shù)據(jù)庫和“科技影片”數(shù)據(jù)庫的表中。
“數(shù)字化檔案服務(wù)器”關(guān)閉文件DOCS.001,完成將檔案登錄到數(shù)字圖書館的過程。
雖然以上結(jié)合附圖對(duì)本發(fā)明的方法和檔案服務(wù)器進(jìn)行了詳細(xì)說明,但是應(yīng)該理解到,對(duì)于本領(lǐng)域熟練的技術(shù)人員,在不背離本發(fā)明的實(shí)質(zhì)和范圍的情況下,可以做出許多修改和變更。本發(fā)明的范圍僅由權(quán)利要求限定。
權(quán)利要求
1.在可拆卸海量存儲(chǔ)介質(zhì)上制作檔案的方法,其特征在于包括以下步驟將檔案數(shù)字化為數(shù)字化檔案;提取檔案的著錄信息;將所述數(shù)字化檔案和所述著錄信息存儲(chǔ)到所述可拆卸海量存儲(chǔ)介質(zhì)上。
2.根據(jù)權(quán)利要求1的方法,其特征在于所述提取檔案的著錄信息的步驟還包括將所述著錄信息存儲(chǔ)到檔案目錄文件中;所述將所述著錄信息存儲(chǔ)到可拆卸海量存儲(chǔ)介質(zhì)上的步驟還包括將所述檔案目錄文件存儲(chǔ)到可拆卸海量存儲(chǔ)介質(zhì)上。
3.根據(jù)權(quán)利要求2的方法,其特征在于對(duì)于大量的檔案,可以分幾次進(jìn)行提取所述檔案的著錄信息的步驟,分別形成不同的檔案目錄文件。
4.數(shù)字化檔案服務(wù)器,用于將按照權(quán)利要求1的在可拆卸海量存儲(chǔ)介質(zhì)上制作檔案的方法制造的檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中,其特征在于包括用于讀取可拆卸海量存儲(chǔ)介質(zhì)上所存儲(chǔ)的著錄信息的裝置;用于將所述著錄信息登錄到數(shù)字圖書館的數(shù)據(jù)庫表中的裝置。
全文摘要
公開一種在可拆卸海量存儲(chǔ)介質(zhì)上制作檔案的方法,其特征在于包括以下步驟:將檔案數(shù)字化為數(shù)字化檔案;提取檔案的著錄信息;將所述數(shù)字化檔案和所述著錄信息存儲(chǔ)到所述可拆卸海量存儲(chǔ)介質(zhì)上。還公開一種數(shù)字化檔案服務(wù)器,用于將按照權(quán)利要求1的在可拆卸海量存儲(chǔ)介質(zhì)上制作檔案的方法制造的檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中,其特征在于包括:用于讀取可拆卸海量存儲(chǔ)介質(zhì)上所存儲(chǔ)的著錄信息的裝置;用于將所述著錄信息登錄到數(shù)字圖書館的數(shù)據(jù)庫表中的裝置。
文檔編號(hào)G06F17/30GK1182238SQ9611452
公開日1998年5月20日 申請(qǐng)日期1996年11月8日 優(yōu)先權(quán)日1996年11月8日
發(fā)明者簡(jiǎn)志敏, 田忠 申請(qǐng)人:國際商業(yè)機(jī)器公司