局域網(wǎng)FTP搜索引擎構(gòu)建論文
時間:2022-03-12 10:55:00
導(dǎo)語:局域網(wǎng)FTP搜索引擎構(gòu)建論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要FTP服務(wù)是網(wǎng)絡(luò)服務(wù)的一種應(yīng)用廣泛的文件傳輸形式,本文擬構(gòu)建一個基于Web的FTP主機(jī)的文件搜索系統(tǒng),能夠以Web形式輕松的檢索FTP上的文件,并且可以直觀的以Web模式模擬FTP主機(jī)的文件結(jié)構(gòu)。
關(guān)鍵詞搜索引擎;FTP;Web
1背景
當(dāng)前,計(jì)算機(jī)網(wǎng)絡(luò)已經(jīng)越來越普及,各個單位也已經(jīng)逐步建立自己的FTP(FileTransferProtocol)服務(wù)器,用來管理存儲對于自己單位內(nèi)部共享的一些文件或者對外共享的一些文件。隨著被FTP管理的文件數(shù)量的不斷增長,達(dá)到上萬、上百萬,甚至更多的時候,如何在如此龐大數(shù)據(jù)里邊更快捷的找到自己所需的文件,將成為一個很重要的問題。
目前出現(xiàn)了一些FTP搜索引擎,可以用來搜索整個互聯(lián)網(wǎng)內(nèi)處于匿名訪問的FTP上的文件信息,而需要權(quán)限才能訪問的FTP則無法直接建立索引,因此不能達(dá)到搜索效果。本文擬構(gòu)建的FTP搜索引擎是針對單位內(nèi)部,局域網(wǎng)內(nèi)的一個或者幾個ftp服務(wù)器建立的;使內(nèi)部用戶直接可以看到FTP上的目錄結(jié)構(gòu),并可以準(zhǔn)確的搜索文件位置,然后下載瀏覽,達(dá)到檢索高效、準(zhǔn)確。
2擬構(gòu)建系統(tǒng)之模型
系統(tǒng)構(gòu)建網(wǎng)絡(luò)拓?fù)淠P腿鐖D1所示。根據(jù)拓?fù)浣Y(jié)構(gòu),內(nèi)部網(wǎng)絡(luò)部署若干臺FTP服務(wù)器,根據(jù)需要,在每臺需要被查詢的FTP服務(wù)器上,建立掃描文件結(jié)構(gòu)發(fā)生變化的爬蟲程序,并在內(nèi)部網(wǎng)絡(luò)建立FTP文件索引數(shù)據(jù)庫服務(wù)器,用來存放FTP服務(wù)器上爬蟲程序獲取的索引數(shù)據(jù),另外還要建立Web服務(wù)器,用來做Web查詢。
3系統(tǒng)模式分析
本系統(tǒng)采用兩個模塊構(gòu)建,分別是部署于FTP服務(wù)器的爬蟲程序和部署于Web服務(wù)器的索引查詢引擎。
部署于FTP服務(wù)器的爬蟲是一用來監(jiān)控FTP文件結(jié)構(gòu)變化的程序,它用來監(jiān)視FTP服務(wù)器的變化,當(dāng)FTP服務(wù)器有新的文件上傳或者有文件被刪除或者文件位置發(fā)生變化的時候,爬蟲程序會立即捕捉到此變化,然后將變化信息響應(yīng)到建立索引的數(shù)據(jù)庫服務(wù)器。
部署于Web服務(wù)器的查詢引擎是主要用來做查詢服務(wù),以及針對用戶輸入的查詢關(guān)鍵字做模糊處理,直接以模糊方式查詢,當(dāng)搜索到結(jié)果以后,顯示時候?qū)⑽募嶧TP位置顯示,同時將對應(yīng)的超級連接做在上邊,可以方便直接下載。
在訪問范圍上,擬構(gòu)建的搜索系統(tǒng)可以供內(nèi)網(wǎng)和外網(wǎng)同時檢索,訪問方式
如圖一所示,將Web服務(wù)器在內(nèi)部網(wǎng)絡(luò),同時開放到Internet,可提供到Internet訪問。通過Web服務(wù)器來對內(nèi)和對外提供檢索服務(wù)。內(nèi)部用戶通過內(nèi)部網(wǎng)絡(luò)直接訪問Web服務(wù)器來訪問搜索引擎,外部用戶通過Internet來訪問Web搜索引擎。
4系統(tǒng)的實(shí)現(xiàn)
FTP服務(wù)器爬蟲程序主要用來建立FTP文件的樹形結(jié)構(gòu),如圖2所表示,每獲得一個服務(wù)器就建立一個FTP根節(jié)點(diǎn),然后在遍歷根節(jié)點(diǎn)下邊的子節(jié)點(diǎn),直到將子節(jié)點(diǎn)遍歷完畢。FTP服務(wù)器爬蟲程序可以采用Java或者C++等程序來實(shí)現(xiàn),可以作為操作系統(tǒng)的一個服務(wù)來加載。此種爬蟲程序可以根據(jù)需求分為兩類,一類是實(shí)時記載服務(wù)器文件結(jié)構(gòu)變化的,一類是分周期的記載數(shù)據(jù)庫變化的。實(shí)時記載的爬蟲程序運(yùn)行過程是:當(dāng)初始加載到一個新的FTP服務(wù)器,爬蟲程序首先遍歷該服務(wù)器,獲得該服務(wù)器的文件結(jié)構(gòu),同時將此結(jié)構(gòu)記載到數(shù)據(jù)庫服務(wù)器,當(dāng)遍歷完整個服務(wù)器后,然后就進(jìn)入監(jiān)控狀態(tài),實(shí)時記載服務(wù)器變化,當(dāng)文件增加時在原數(shù)據(jù)基礎(chǔ)上追加數(shù)據(jù),當(dāng)文件更改位置后,修改對應(yīng)記錄的數(shù)據(jù),當(dāng)文件被刪除時清除數(shù)據(jù)庫中的對應(yīng)記錄。
分周期記載的爬蟲程序的運(yùn)行過程是:當(dāng)加載到一個新的FTP服務(wù)器,程序遍歷該服務(wù)器,獲得服務(wù)器的文件結(jié)構(gòu),同時也將此結(jié)構(gòu)記載到數(shù)據(jù)庫服務(wù)器,當(dāng)過一定周期后,重新遍歷服務(wù)器文件結(jié)構(gòu),將結(jié)果再記載到數(shù)據(jù)庫,并刪除原有的遍歷結(jié)果,如此反復(fù)。
兩類程序有各自的優(yōu)缺點(diǎn),第一類實(shí)時性比較強(qiáng),當(dāng)服務(wù)器文件結(jié)構(gòu)發(fā)生變化后,立即可以體現(xiàn)到檢索結(jié)構(gòu)中,但缺點(diǎn)是占用FTP系統(tǒng)資源太多,可能會影響FTP服務(wù)性能;第二類正好與相反,因?yàn)樗侵芷谛缘谋闅v,因此可選擇FTP比較空閑的時候來遍歷,不會太多影響FTP服務(wù)性能,但實(shí)時性就比較差,不能將FTP的文件變化立刻體現(xiàn)到檢索結(jié)果中去。兩類程序可根據(jù)服務(wù)器性能來選擇合適的類型。
搜索引擎Web端可以采用J2EE+AJAX來實(shí)現(xiàn),用戶檢索時可選擇精確檢索和模糊檢索,精確檢索查詢完全匹配的,模糊查詢檢索可以用相似性來檢索。此外,針對每個獨(dú)立的FTP主機(jī),遍歷其上爬蟲程序建立于數(shù)據(jù)庫的索引樹結(jié)構(gòu),就可以建立起虛擬的FTP文件結(jié)構(gòu),從而可以在WEB程序上顯示FTP的文件結(jié)構(gòu)。
5結(jié)束語
本文討論建立基于局域網(wǎng)的單個FTP和多個FTP的搜索,根據(jù)FTP服務(wù)器的實(shí)際情況,選擇適合的爬蟲程序類型,建立索引樹。對于本文設(shè)計(jì)構(gòu)建的結(jié)果,可以將本系統(tǒng)推廣于Internet,將爬蟲程序置入需要索引的FTP上,或者通過外部間接獲取索引,從而達(dá)到FTP的文件搜索效果,使得用戶更加高效的找到所需要的文件。
參考文獻(xiàn)
[1]陳華,王繼民,韓近強(qiáng),謝欣.《互聯(lián)網(wǎng)上FTP文件的分布特征與啟示》
[2]陳華,李曉明.高級文件搜索引擎核心功能的實(shí)現(xiàn)技術(shù).《搜索引擎與Web挖掘進(jìn)展》,高等教育出版社,2003