以掃描方式快速建立期刊題錄數(shù)據(jù)庫的操作方法探微
一、 問題的提出及備選方法的分析
圖書館作為人類知識的寶庫,在保存人類文化遺產(chǎn)、傳播知識與信息、開發(fā)智力、培養(yǎng)人才、推動人類文明的發(fā)展等方面有著不可替代的作用。但在各類信息大量涌現(xiàn)的今天,電腦信息及相關(guān)技術(shù)的飛速發(fā)展,使得單純地擁有紙質(zhì)載體文獻已經(jīng)不再是圖書館的優(yōu)勢,而易于為讀者使用的電子信息產(chǎn)品則顯示出更大的發(fā)展?jié)摿?。因此圖書館這個‘知識的寶庫’要真正完成‘由知識到財富’即由“資料庫——信息庫——思想庫”的整個深化過程,實現(xiàn)紙質(zhì)載體向電子載體的戰(zhàn)略轉(zhuǎn)移將是一條有效的途徑。
電腦信息及相關(guān)技術(shù)的出現(xiàn),要求圖書館員以數(shù)字化的信息資料為管理對象,對電子化的信息進行深度加工與存貯,也就是在自動化及電子化上做文章,作出快速反應(yīng),廣、快、精、準(zhǔn)地提供信息,以適應(yīng)讀者的高層次需求,才能促成這個深化過程的盡快實現(xiàn)。圖書館要使自己的工作能有效的服務(wù)于讀者,最重要的方式之一,就是要對館藏圖書信息資料這個寶庫中的“寶藏”進行高效有序地組織,使數(shù)以萬計的資料能井然有序“存”進去,并在讀者需要時迅速準(zhǔn)確地“取‘出來,這個過程既是資料有序化的過程,又是知識體系的重組過程,能順利地實現(xiàn)這個轉(zhuǎn)化過程,圖書館才能說開始邁入信息管理現(xiàn)代化的門檻。由此可見,實現(xiàn)文獻信息由紙質(zhì)載體向電子載體的轉(zhuǎn)變,是21世紀(jì)圖書館的必然抉擇。
實現(xiàn)這種轉(zhuǎn)變有不少備選方案:一是加入到國際互聯(lián)網(wǎng)中去,那里有著無窮盡的信息資料資源。但這種方式不一定能全面搜集到各種有用的相關(guān)信息,而且對于當(dāng)前經(jīng)費緊張的圖書館來說,開支的經(jīng)費較難承受;二是買光盤電子產(chǎn)品或數(shù)據(jù)庫。這種選擇的好處是信息量大,查詢方便,見效快。缺點是價格昂貴,資料容易過時。如果不能繼續(xù)投入,則光盤的作用就受到極大的限制,且單純的投入資金購置光盤及相應(yīng)管理軟件,并不能真正揭示館藏,易與原有的圖書信息資料資源脫節(jié);三是采取‘走出去、請進來’或委托培養(yǎng)等方式,培養(yǎng)能夠滿足本館業(yè)務(wù)需要的系統(tǒng)維護、硬件維修和操作人員。選擇后一種方案也存在著經(jīng)費等問題。
可以選用的方案還很多,具體應(yīng)采取什么樣的方法,應(yīng)該根據(jù)各校的校情而定。從大的方面來說,大部分圖書館有著其相同的特點即共同的館情,那就是:一是資金緊缺,圖書期刊訂閱量下降,收藏覆蓋面嚴(yán)重萎縮。這樣對現(xiàn)有館藏的充分揭示就變得十分重要。要從大量的未經(jīng)開發(fā)的紙質(zhì)文獻資料中為讀者找到所需要的信息資料,靠傳統(tǒng)的‘手工作坊’式的操作方法是根本無法滿足需要的。第二個特點,是人員素質(zhì)普遍不高、人手不足、傳統(tǒng)工作業(yè)務(wù)量大、改革力不從心,人才問題成了困擾圖書館發(fā)展的一個大問題。造成這種局面的原因在于,圖書館本身的技術(shù)力量配置有限,很多館員是一些不相關(guān)的行業(yè)轉(zhuǎn)行而來,而有突出才能的技術(shù)人員又往往留不住,使人才成為整個系統(tǒng)的“瓶頸”環(huán)節(jié)。要在短期內(nèi)培訓(xùn)出圖書館現(xiàn)代化建設(shè)合用的人才,不是一件容易的事情。
以目前的現(xiàn)實看,單純以一個館靠自己的力量完成全部數(shù)據(jù)處理及技術(shù)工作,顯然力量不足。而現(xiàn)實又需要圖書館為讀者提供深層次的信息資料服務(wù)。因此,圖書館從經(jīng)費及人才上考慮,最現(xiàn)實的辦法,就是建立‘人才共享’或‘技術(shù)共享’新觀念,才能有效地解決上述的問題,即各館進行協(xié)調(diào),組織人才開發(fā)相應(yīng)的軟件,在快速建立數(shù)據(jù)庫方面探索出一條可行的路子,并建立起人才與技術(shù)的共享機制,才有望在不長的時間里,以相對較小的代價,使各圖書館在信息資料資源的開發(fā)利用上獲得長足的發(fā)展。圖書館應(yīng)該根據(jù)這些‘館情’來制訂相應(yīng)的發(fā)展的戰(zhàn)略,而不應(yīng)超越這個階段,追求那些達不到的目標(biāo)。時間是最大的付出,不能因為目前尚不具備‘一步到位’的條件就把工作停頓下來,那樣只能給圖書館發(fā)展帶來不利影響。明智的方法應(yīng)該是從現(xiàn)有的條件出發(fā),因校制宜,找到一條符合圖書館現(xiàn)實情況的發(fā)展路子。
最好的方法無疑是既能省錢又易于操作的方法,即:‘少花錢辦大事,沒有錢也要辦事’,這是圖書館無奈又悲壯的選擇。便捷的方法是自建數(shù)據(jù)庫。作為那些沒有資金投資買正版光盤的圖書館來說,最有價值的數(shù)據(jù)庫,即能讀者提供有效服務(wù)的數(shù)據(jù)當(dāng)屬期刊題錄數(shù)據(jù)庫。期刊是一個流動著的知識寶庫,是圖書館信息資料的一個極為重要的部分,薈萃著各種最新的思想、觀點、方法及信息,對教學(xué)和科研起著不可替代的參考作用。要使建立的期刊題錄數(shù)據(jù)庫真正有參考價值,數(shù)據(jù)量必須具備一定的規(guī)模,一般要求在10萬條記錄以上。如果每條數(shù)據(jù)以50個漢字算,那么建庫就意味著要錄入500萬個漢字,工作量大得驚人。這也正是很多想自建數(shù)據(jù)庫的圖書館躊躕不前的原因。那么以圖書館各館自身的力量,這個工作就真是沒有辦法完成了嗎?就非得靠投入資金靠別人來完成嗎?回答是否定的。
以筆者所在的桂林市委黨校圖書館為例,該館就是依靠本館自己的力量,在不到2個月的時間里,建立起了擁有近10萬條數(shù)據(jù),能充分反映自身期刊館藏資源的期刊題錄數(shù)據(jù)庫,并編制相應(yīng)的應(yīng)用軟件,投入試運行達到了預(yù)期的效果,獲得了本校領(lǐng)導(dǎo)的好評,得到了使用者的肯定。之所以開發(fā)獲得成功,最重要的原因之一,就是因為該館找到了適合本館的建庫路子:以掃描方法實現(xiàn)期刊題錄數(shù)據(jù)的快速錄入,以最快的速度完成常規(guī)錄入方式最耗時的環(huán)節(jié),并用電腦工具對題錄文本數(shù)據(jù)進行快速處理,自動轉(zhuǎn)換成數(shù)據(jù)庫數(shù)據(jù),實現(xiàn)快速建立期刊題錄數(shù)據(jù)庫的全過程。
二、如何實現(xiàn)以掃描儀的方法來快速建立數(shù)據(jù)庫
實現(xiàn)這一步必須有一個最基本的硬件條件:有一臺電腦及掃描儀,并安裝相應(yīng)的掃描軟件。隨著電腦及掃描儀硬件價格的不斷下跌,購置這些硬件設(shè)備的條件應(yīng)該是黨校都具備的,軟件一般隨機奉送,也不成為其問題,真正的關(guān)鍵問題是實現(xiàn)這整個過程的方法。從技術(shù)上說,這一整套的操作方法實際上并不復(fù)雜,操作者只要稍加培訓(xùn),甚至只要認(rèn)真領(lǐng)會其操作要領(lǐng)就能掌握。具體步驟如下:
第一步:掃描。安裝好掃描儀,由安裝人員告知如何操作使用掃描儀,掌握最基礎(chǔ)的一般操作方法后,就可以進入掃描工作了。這是最基礎(chǔ)的工作,是建庫工作的開端,對人員素質(zhì)沒有特別的要求。掃描實際上就是把期刊目錄頁的內(nèi)容掃描進電腦中,使它作為圖片文件而存在。圖片信息在電腦磁盤上一般占空間較大,具體所占空間大小視使用的掃描軟件系統(tǒng)而定。大的1張占到1M左右,小的一般5~6張圖片占1M磁盤空間。正因為圖片文件占空間較大,因此一個掃描階段不宜持續(xù)太久,掃描1000頁后就應(yīng)該安排下一步的識別工作,以免圖片文件占滿電腦硬盤空間。掃描的期刊最好是在尚未裝訂前進行,這時目錄頁內(nèi)容容易掃描。如果已經(jīng)裝訂成冊的期刊要進行掃描,因不能把目錄頁文字的部分完全攤平,容易導(dǎo)致一些內(nèi)容掃描不全,影響題錄數(shù)據(jù)的完整性。另外要注意有的期刊在掃描的頁面內(nèi)沒有注明刊名或期次,這時就必須在掃描前在目錄頁面補寫上,以免識別時不能注明出處。掃描的速度:一般1分鐘可以掃描1頁,以1頁20個數(shù)據(jù)計算,1個小時就可以掃描1200個記錄,1天工作5個小時,大體可以完成6000個數(shù)據(jù)的掃描錄入,10萬個數(shù)據(jù)的掃描,只要不到17天就可以完成了。而具備這個數(shù)目的數(shù)據(jù)庫,已經(jīng)算得上是一個中型數(shù)據(jù)庫了。這個速度是手工錄入所根本沒有辦法比擬的。但這僅是工作中的第一步,是整個過程中的其中一個環(huán)節(jié)。
第二步:識別:識別就是把已經(jīng)掃描進去的圖片轉(zhuǎn)換成可以編輯的文本文字。這項工作是整個過程中最耗時的環(huán)節(jié)。這個環(huán)節(jié)所需要的時間,由三個因素決定:一是操作員的操作電腦的熟練程度;二是掃描儀的識別率的高低;三是期刊字跡清楚程度、紙質(zhì)好壞。識別是掃描儀一項基本工作,即把掃描進去的目錄頁中的漢字圖象轉(zhuǎn)化成能進行文本編輯的文字字符。把目錄頁掃描進電腦后,就可以進行識別工作了。但為了高效工作,一般不主張掃入1頁識別1頁,那樣整體上的速度會很低,一般提倡采取流水作業(yè)的作法,即先掃描進一定數(shù)目的文字圖片(如1000頁)后,即開始進入識別工作。識別操作技術(shù)不難掌握,掃描儀操作說明書上有說明。要注意的是:識別出來的文本數(shù)據(jù),必須整理成一行一個記錄,不能讓硬回車符把一個題錄數(shù)據(jù)截成2行乃至3行,那樣將會給下一步處理帶來困難,不易保證記錄的完整性。另外,在作者姓名與篇名或者篇與姓名間要有一個固定的字符如‘\’符將它們分開,以作為電腦自動處理時的姓名標(biāo)識符。在每本期刊識別文本的首頁首行之首鍵入期次標(biāo)識符‘**’號后,然后鍵入:刊名期次。期次統(tǒng)一用4位數(shù)碼填寫,即年份用后2位數(shù),月份用2位數(shù)(月份只有1位數(shù)的前面補0)。識別文本中出現(xiàn)其它因為難以識而出現(xiàn)的怪點號、怪字符、英文字以及各種不規(guī)范的字符,暫時不要去管它,留待以后由電腦自動快速處理。手工刪除它們當(dāng)然不是不可以,但那將會花去很多不必要的時間,使工作效率大為降低。識別工作完成后,把文本部分保存為文本文件,然后刪除圖片文件,以釋放硬盤空間。
第三步:文本數(shù)據(jù)整理。經(jīng)過前兩步的工作后,期刊目錄頁面上的篇名、頁碼、作者、期次等信息已經(jīng)成為了可編輯的文本數(shù)據(jù)。但這時候的這些文本在排列上一般顯得很亂且不規(guī)范,這是因為各種不同的期刊采用不同的方式來組織目錄頁:如有的頁碼在前,有的在后,作者名也有前有后。頁碼與篇名的連接符有時用小圓點,有時用花點,空格穿插其間,有時用短橫線,有時還會有一些裝飾背景等等。更為普遍的是,因為有些符號掃描儀識別不了,轉(zhuǎn)換成文本數(shù)據(jù)后,形成各種奇怪的符號。如果這時用手工去進行整理的話,為此而耗費的工作量將使這個方法成為沒有多少實用價值的方法,因此,整理的方法如何,幾乎決定著這個“以掃描來快速錄入期刊數(shù)據(jù)”的方法是否可行??茖W(xué)而快捷的方法,應(yīng)該是由電腦這個快速處理信息的工具來自動完成這些瑣碎的整理工作。這里就涉及到一些關(guān)鍵的技術(shù)問題。解決這個問題有不少的可行方法,我們這里選用Office家族的Word軟件中的宏處理方式來解決這個難題。
具體方法是:運行Office家族的Word軟件,打開菜單標(biāo)題“工具”,選擇“宏”中的“錄制新宏”。這里所謂的“宏”,實際上就是一個小程序,只不過它不要編制者直接編程,而是以一種“錄制”的可視方式進行編制罷了,其中的過程以可視的方式實現(xiàn),而實際形成的是一些可編輯的程序代碼。我們不用管這些代碼,而只管“錄制”。所謂“錄制”,就是把你在選擇“錄制新宏”選項后,把想要自動實現(xiàn)的過程實際操作一遍,完成后重新打開菜單標(biāo)題“工具”,選擇“宏”中的“停止錄制”選項,這樣整個錄制新宏的過程就完成了。例如:如果我們想把文本數(shù)據(jù)中的空格去掉,我們可以先以上述的方法啟動“錄制新宏”功能,然后打開菜單標(biāo)題“編輯”中的“替換”選項,把全部空格替換掉,替換完畢后停止錄制宏。這樣,這個宏就可以完成把文本數(shù)據(jù)中的空格刪除的功能。
當(dāng)然這個剛定義宏功能是單一的。但我們可以用這個方法制作一批功能單一的宏,這樣就可以用這些宏實現(xiàn)各種不同的處理文本數(shù)據(jù)的功能。更深入一步,用相同的方法,可以錄制出功能更復(fù)雜的宏,比如把這些單獨功能的宏全部綜合起來的宏,這樣,只要調(diào)用這個宏就可以讓文本數(shù)據(jù)一次按預(yù)定的要求快速地整理完成。以這個方法整理文本數(shù)據(jù)的速度,會使你覺得整理數(shù)據(jù)是一件輕松有趣的事情。要方便的調(diào)用這些宏,還可以做進一步的工作,那就是把它們調(diào)到菜單標(biāo)題上來直觀調(diào)用。具體方法是:打開菜單標(biāo)題“工具”選擇“自定義”選項,在“工具欄”選頁卡上擊“新建”建立一個新的工具欄,然后選擇“命令”選頁卡,選擇“宏”一欄,這時右邊會出現(xiàn)已經(jīng)錄制好的各個宏的名稱,可以把這些宏用鼠標(biāo)拖到新建的工具欄上去,而這個工具欄可以拖放到菜單標(biāo)題欄中,這樣,所錄制的宏就可以作為直觀的菜單工具選項方便地使用了。這里,要注意,錄制的宏的名稱最好作適當(dāng)修改,這樣,修改后的宏名可以說明其實現(xiàn)的功能,也更短小醒目。
第四步:把文本數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)庫中的數(shù)據(jù)。文本數(shù)據(jù)只能進行直接的編輯及簡單的查詢,而要實現(xiàn)數(shù)據(jù)排序、查詢、處理等各種復(fù)雜的功能,只有在數(shù)據(jù)庫環(huán)境中才能方便實現(xiàn),因此,把文本數(shù)據(jù)轉(zhuǎn)化成數(shù)據(jù)庫數(shù)據(jù),是整個過程中最關(guān)鍵的一步,也是技術(shù)性最強的一步。這里涉及到一些數(shù)據(jù)庫編程的知識,我們這里只講最實用的、能完成從文本數(shù)據(jù)到數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換的簡要程序代碼,操作者只要依樣畫葫蘆,把這些代碼鍵入到數(shù)據(jù)庫環(huán)境命令窗口,然后執(zhí)行這些命令就能方便實現(xiàn)轉(zhuǎn)換。進行這項工作的一個前提,是要在電腦上安裝Office家族中的Visual Foxpro(3.0,5.0,6.0版本均可),這個軟件很容易找到,它是一個功能極為強大、運行速度極快的數(shù)據(jù)庫環(huán)境。將軟件安裝好后,雙擊相應(yīng)圖標(biāo)就進入了該數(shù)據(jù)環(huán)境。轉(zhuǎn)換步驟主要有以下幾步:
A、創(chuàng)建一個包括相關(guān)的題錄數(shù)據(jù)信息的簡單的空數(shù)據(jù)庫,取名為:期刊數(shù)據(jù),至少包括以下5個字段:ml(篇名)、zo(作者)、kf(刊名)、qi(期次)、ye(頁碼)。具體方法是:進入Visual Foxpro數(shù)據(jù)庫環(huán)境(以下簡稱數(shù)據(jù)庫環(huán)境)后,操作各種菜單及選項,操作過程為:‘文件’-‘新建’-‘表’-‘新建文件’-‘保存’,然后在表設(shè)計器中輸入以上的4個字段名,‘類型’全部選‘字符’型,‘寬度’分別為:160、20、40、20、6?!_定’保存這個表結(jié)構(gòu),輸入選‘否’后退出即可。
B、將文本數(shù)據(jù)填入空數(shù)據(jù)庫。具體方法是:首先打開剛建的空數(shù)據(jù)庫(操作過程:‘文件’-‘打開’,在對話框中選要打開的數(shù)據(jù)庫即可),然后打印命令窗口(操作過程:‘窗口’-‘命令窗口’),在命令窗口中鍵入代碼:
appe from wrbr.txt sdf
然后回車執(zhí)行這條命令,就把文本數(shù)據(jù)填入了數(shù)據(jù)庫。這里要注意,期刊文本數(shù)據(jù)是一個文本文件(wrbr.txt),如果它不放在當(dāng)前目錄下,需指明文件所在的路徑,否則系統(tǒng)將找不到該文件。
C、把期刊名稱及期次分別填入不同字段(注意:此程序段需分別做成一個小程序文件執(zhí)行,不能直接在命令窗口中使用。)具體代碼是:
proc kfml && 填入期刊刊名程序代碼
scan
if '**' $ ml
kfml=subs(ml,3,len(allt(ml))-6)
endi
repl kf with kfml
ends
proc qici && 填入期次程序代碼
scan
if '**' $ ml
n=len(allt(ml))
qici='19'+subst(allt(ml),n-3,2)+;
'年第'+right(allt(ml),2)+'期'
endi
repl qi with qici
ends
D、把數(shù)據(jù)庫中的頁碼分離出來。具體代碼是:
proc yema && 剝離頁碼程序
scan
for n=1 to 6
if isdi(right(allt(ml),n))
len=len(allt(ml))
repl ye with subst(allt(ml),len-n+1,1)+ye
endi
endf
for n=1 to 6
if isdi(right(allt(ml),n))
len=len(allt(ml))
repl ml with left(allt(ml),len-n-1)
endi
endf
ends
E、把數(shù)據(jù)庫中的作者姓名分離出來。
proc xlml && 剝離作者姓名
scan for '\' $ ml
repl zo with subst(ml,at('\',ml)+1,20)
repl ml with left(ml,at('\',ml)-1)
ends
經(jīng)過以上的幾個步驟,手工錄入工作量巨大的工作就這樣輕松地完成,數(shù)據(jù)庫就建立起來了。至于數(shù)據(jù)庫的應(yīng)用,問題就簡單多了,滿足圖書館一般查詢的需要,只要學(xué)會幾句實用的數(shù)據(jù)庫命令,就可以使這個數(shù)據(jù)庫發(fā)揮作用。當(dāng)然,如果想要這個數(shù)據(jù)庫發(fā)揮更大的效用,那就需要編制相應(yīng)的或簡或繁的應(yīng)用程序。為此,筆者編制了一整套《圖書信息資料管理軟件》,有近60個功能塊,涵蓋了‘日常館務(wù)、書刊管理、資料查詢、數(shù)據(jù)加工、信息服務(wù)、系統(tǒng)維護、常用工具、使用幫助’等八大方面,較全面的滿足了圖書館圖書信息自動化管理的需要。這套應(yīng)用軟件,也將象上述方法一樣,以合適的方式,實現(xiàn)與全國各圖書館的‘技術(shù)共享’。
推而廣之,由于這種快速建庫的方式具有操作靈活、適應(yīng)廣泛等特點,因此,它不僅適合于期刊數(shù)據(jù)庫的快速建庫,也適合于書目數(shù)據(jù)庫、工具書題錄數(shù)據(jù)庫、報紙題錄數(shù)據(jù)庫、全文數(shù)據(jù)庫等庫的快速建立,而所有這些數(shù)據(jù)庫,都是各種類型的圖書館必須建立,而以常規(guī)方法卻無法‘低耗高效’完成的。美國資深專欄作家尼古拉·尼洛龐帝認(rèn)為:‘計算不再只和計算機有關(guān),它決定我們的生存?!瘓D書館如果不想被時代拋棄,就必須去深刻把握“數(shù)字化生存”的含義,適應(yīng)這個數(shù)字化的世界。可以預(yù)見,系列數(shù)據(jù)庫的建立,將會對教學(xué)科研提供有效的智力支持,為圖書館更好地生存和發(fā)展提供條件。建庫的過程中,當(dāng)然可以借助外界現(xiàn)成的數(shù)據(jù)成果,但圖書館在建庫方面,更應(yīng)該有自己的特色產(chǎn)品,而用上述快速建庫的方法來建立具有自身特色的各式數(shù)據(jù)庫,無疑為圖書館建庫提供了一個更貼近現(xiàn)實的極佳選擇。