文獻資源存儲數(shù)據(jù)挖掘論文
時間:2022-05-23 02:52:57
導語:文獻資源存儲數(shù)據(jù)挖掘論文一文來源于網友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1云計算技術
云計算與云存儲的出現(xiàn),為圖書館文獻資源信息服務的建設注入了新的活力。利用云計算服務可以為圖書館提供存儲、平臺和計算功能,而圖書館也可以利用云服務來處理業(yè)務,大大降低圖書館信息技術的資金成本和人力資源。圖書館通過對各類信息資源、格式采用一個統(tǒng)一的管理平臺,實現(xiàn)更大的網絡信息效益,同時也可以共享應用和數(shù)據(jù)。
2文獻資源存儲
2.1存儲現(xiàn)狀
從存儲系統(tǒng)的模式來看,當前存儲技術有以下3種:直接連接存儲DAS(DirectAttachedStor-age)、網絡接入存儲NAS(NetworkAttachedStor-age)和存儲區(qū)域網絡SAN(StorageAreaNet-work)[1]。DAS是最早的服務器與磁盤直聯(lián)的存儲方式。由于存儲量小,該模式已經不再適合圖書館大容量數(shù)據(jù)資源的存儲要求。NAS采用網絡TCP/IP技術,優(yōu)點是可以支持多計算機平臺,適合訪問量不大的數(shù)據(jù)庫和事務處理。
2.2存儲區(qū)域網絡SAN
SAN是采用光纖通道交換機和光纖線纜把存儲設備和服務器機群連接。提供速率高達4Gbps的數(shù)據(jù)傳輸,是真正的高速共享存儲。它不占用外網的資源,具有自己獨立的存儲區(qū)域,光纖接口提供連接長度達10km。其獨立的存儲管理系統(tǒng)對存儲設備進行集中管理和監(jiān)測。與傳統(tǒng)的直連存儲方式相比,SAN更關注磁盤、磁帶等存儲設備的可靠結構。成為最具發(fā)展?jié)摿Φ拇鎯δJ?,在大型?shù)據(jù)庫資源存儲中是主流技術。在云存儲的技術支持下,我們可以利用光纖通道SAN陣列來存儲數(shù)據(jù)量成倍增加的信息資源數(shù)據(jù)。把SAN陣列劃分成若干邏輯區(qū)域,每個區(qū)域存放一個服務器上的數(shù)據(jù)。通過存儲區(qū)域網絡服務組之間的共享存儲陣列,可以實現(xiàn)存儲資源的聚合,采用集中存儲架構,服務器將接入這個存儲網絡,并由存儲平臺統(tǒng)一提供空間并保證存儲系統(tǒng)的可靠性和可用性。
2.3陣列存儲形式
在存儲區(qū)域網絡SAN的數(shù)據(jù)存儲模式下,文獻信息資源是以磁盤陣列的方式存儲的。磁盤陣列是數(shù)據(jù)存儲的重要設備,其穩(wěn)定性和可靠性是非常重要的。考慮到圖書館文獻資源存儲量日益增大,磁盤以RAID5的陣列存儲形式構成。在RAID5中,數(shù)據(jù)以塊為單位分布到各個硬盤上。RAID5本身不對數(shù)據(jù)進行備份,而是把數(shù)據(jù)和與其相對應的奇偶校驗信息存儲到組成RAID5的各個陣列磁盤上,而且數(shù)據(jù)和奇偶校驗信息分別存儲于不同的磁盤上。當RAID5的一個磁盤數(shù)據(jù)損壞后,利用剩下的數(shù)據(jù)和相應的奇偶校驗信息可以恢復被損壞的數(shù)據(jù)[3]。RAID5是目前冗余能力和存儲安全性能非常好的方式。根據(jù)RAID5的特性,陣列中其中一塊磁盤是作為熱備盤使用的,正常狀態(tài)下該盤不存儲數(shù)據(jù)。
數(shù)據(jù)的安全存儲和有效利用是現(xiàn)代化圖書館文獻資源建設的2個重要方面。在數(shù)據(jù)得以安全存儲的前提下,如何利用好這些海量的數(shù)據(jù)信息,發(fā)現(xiàn)其中規(guī)律,用于指導現(xiàn)在或是未來的工作,就需要一門新的技術來研究它們的規(guī)律。數(shù)據(jù)挖掘技術就在這個背景下應運而生,并且得到了迅速的發(fā)展。數(shù)據(jù)挖掘簡稱KDD知識發(fā)現(xiàn),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)。它是從龐大的不完整、模糊的隨機數(shù)據(jù)中提取潛在的和有價值的信息。例如:通過對讀者以往書籍的借閱情況進行挖掘分析、對比,可以發(fā)現(xiàn)他們的學習情況、興趣愛好等規(guī)律,還可以通過分析,評估圖書館工作的成效,給圖書館的服務提供科學指導。其次,可以將關聯(lián)規(guī)則算法應用到圖書流通數(shù)據(jù)的分析,挖掘讀者借閱行為中的潛在規(guī)則,以指導圖書館的讀者服務工作。應用關聯(lián)規(guī)則算法,發(fā)現(xiàn)借閱流通日志中圖書之間的關聯(lián),從而指導讀者的借閱行為和提供個性化服務。通過實驗分析獲得的相關規(guī)律和結論,為圖書館數(shù)字資源的采購、引進以及個性化服務推薦提供有力的數(shù)據(jù)依據(jù)和決策管理支持。
4結束語
在圖書館文獻資源建設中,數(shù)據(jù)的安全存儲和高效的利用是2個重要的環(huán)節(jié)?,F(xiàn)代化圖書館中,電子文獻資源數(shù)量與日俱增,數(shù)據(jù)的安全存儲則十分重要。采用存儲區(qū)域網絡SAN的存儲系統(tǒng)具有很高的可靠性和可用性,為數(shù)據(jù)的存儲提供了安全的保障。同時利用數(shù)據(jù)挖掘技術可以顯著提高文獻資源的利用率,給圖書館的發(fā)展帶來了新的活力。
作者:貝蓓張凱單位:河北農業(yè)大學