非結(jié)構(gòu)化信息監(jiān)管和搜索進程

時間:2022-12-17 03:22:00

導(dǎo)語:非結(jié)構(gòu)化信息監(jiān)管和搜索進程一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

非結(jié)構(gòu)化信息監(jiān)管和搜索進程

1檢索技術(shù)日顯局促,亟待突破

世界范圍的WWW正以目前每9個月增加一倍的速度飛速發(fā)展,并還將以指數(shù)速度繼續(xù)增加。而另一方面,在從Web或數(shù)據(jù)倉庫中找到你所需要的內(nèi)容卻并非進展迅速,雖然檢索到相關(guān)結(jié)果的速度正以兆兆字節(jié)甚至十倍于此的速度增加。據(jù)2004年5月NielsenNormanGroup的2004Web可用性調(diào)查結(jié)果顯示,所有用戶(包括偶爾使用或經(jīng)驗豐富的用戶)對搜索結(jié)果滿意的次數(shù)百分比僅為42%,經(jīng)驗豐富的用戶這一數(shù)字可以達到50%。最糟糕的搜索經(jīng)歷常發(fā)生在使用企業(yè)網(wǎng)站點搜索而不是使用巨型搜索引擎的時候。另據(jù)ForresterResearch的統(tǒng)計表明,非結(jié)構(gòu)化信息的數(shù)量正在以每年200%的速度增長。

一般員工大約要花費35%的時間尋找工作所需的非結(jié)構(gòu)化信息。由此可見,搜索引擎必須采取措施使自己變得更為聰明,同時能更準(zhǔn)確全面的為大多數(shù)用戶帶來令人滿意的搜索結(jié)果。我們需要有一個工具,能同管理結(jié)構(gòu)化信息一樣,有效地管理我們的非結(jié)構(gòu)化信息。

2有望終結(jié)傳統(tǒng)搜索模式的Autonomy的“樣板工程”Blinkx英德中文版已經(jīng)推出

2004年7月,位于美國舊金山的創(chuàng)業(yè)公司Blinkx推出了一種新型搜索工具Blinkx,該工具可以提供類似“模糊搜索”或“語義搜索”的功能。也就是說,當(dāng)用戶提出類似“搜索引擎未來發(fā)展趨勢如何”這樣的搜索需求時,搜索引擎能夠給出相關(guān)內(nèi)容的搜索列表,而不會像傳統(tǒng)搜索工具那樣只是機械的給出包含“搜索”、“引擎”、“未來”、“發(fā)展”、“趨勢”等詞匯但卻遠離該主題的文章。Blinkx不僅可以搜索文本內(nèi)容,還可以搜索電影電視等多媒體內(nèi)容,不僅可以搜索互聯(lián)網(wǎng)內(nèi)容,還可以搜索本機和局域網(wǎng)上的內(nèi)容。Blinkx同時還可以搜索不同的文本格式內(nèi)容,如Text、Word、Excel、PPT、PDF以及各種數(shù)據(jù)庫中的數(shù)據(jù)格式。有媒體把這種搜索方式稱為“智能搜索”,這樣的搜索引擎一直以來都是人們的夢想,或許Autonomy就是下一代搜索引擎的開端也未可知。當(dāng)然Autonomy并不只局限于桌面搜索這個狹窄的領(lǐng)域,它不只是代表一系列產(chǎn)品,也不只是一家公司的名字,最主要的是它代表著一種搜索理念和技術(shù)。一旦它成功,桌面搜索的格局自然也會跟著發(fā)生翻天覆地的變化。

如果安裝了Blinkx的客戶端軟件,一個小的菜單窗口就會出現(xiàn)在Word、Outlook等幾乎所有文檔處理窗口的右上方。用戶在這些窗口中處理文檔時,系統(tǒng)會自動分析這個文檔,然后自動從本機或網(wǎng)絡(luò)上抓取相關(guān)文章或鏈接,以供用戶參考。它還可以及時提供與文章內(nèi)容相關(guān)的新聞、產(chǎn)品信息、視頻內(nèi)容等分類信息。簡單地說,用戶完全可以拿一篇文章來作為“查詢關(guān)鍵詞”,Blinkx通過對這篇文章進行分析,會給出與這篇文章內(nèi)容最接近的網(wǎng)絡(luò)鏈接或本機文檔[4]。這無疑給需要處理大量數(shù)據(jù)的個人和企業(yè)提供了巨大便利。

2005年元旦剛過Blinkx進入中國市場,其中文測試版已經(jīng)“竣工”。目前已經(jīng)在國內(nèi)某數(shù)據(jù)中心建立了一個試驗平臺,大約有30多臺服務(wù)器正在運行著Blinkx的后臺系統(tǒng)。

Autonomy公司是Blinkx公司的股東之一,Blinkx的核心技術(shù)也來自Autonomy,因為這種密切關(guān)系,Blinkx被認為是Autonomy的“樣板工程”。此前,Autonomy一直像汽車發(fā)動機一樣隱藏在幕后。Autonomy雖然在公眾中的知名度不太大,但在商業(yè)應(yīng)用領(lǐng)域中卻名聲顯赫,并在政府、國防、新聞、金融、電信、教育等領(lǐng)域擁有大量中堅客戶。而且,Autonomy還是一個“歷史悠久”的IT公司,同時在美國和英國上市,擁有超過1.47億美元的現(xiàn)金。

3Autonomy的模式識別技術(shù),可以幫助用戶發(fā)現(xiàn)一些事前不知道的相關(guān)信息

目前,人類研究的信息搜索技術(shù)有四個方向:關(guān)鍵字搜索,模式識別,語義分析,神經(jīng)網(wǎng)絡(luò)。除了關(guān)鍵詞搜索比較成熟外,其他三項技術(shù)還處于待開發(fā)狀態(tài)。模式識別的代表者就是Autonomy,語義分析和神經(jīng)網(wǎng)絡(luò)兩個技術(shù)方向目前尚無壓倒性的代表者,一年半載不會有突破性的研究成果。所以,模式識別就成了目前比較先進的信息搜索技術(shù)。

采用“模式識別”搜索方法,可通過判別相關(guān)識別度的高低來對數(shù)據(jù)進行檢索,可以避免傳統(tǒng)“關(guān)鍵詞檢索”造成的漏檢情況的發(fā)生。比如一篇文章里如果有“大?!边@個詞,這篇文章有可能和企鵝有關(guān),但是“大?!边@個詞用在很多不同的地方,有可能文章講的是別的內(nèi)容。但是如果一篇文章里有“大海”、“南極”、“黑色”、“白色”、“不會飛”、“羽毛”、“下蛋”、“石油”、“泄露”等這些詞,這篇文章是在談?wù)撐廴竞推簌Z的概率就會很高。雖然整篇文章里沒有“企鵝”這個詞,但是很多相關(guān)度較低的詞出現(xiàn)在一起就會帶來很高的相關(guān)度,并且缺少某個描述詞對其產(chǎn)生的結(jié)果影響微乎其微。

如果說傳統(tǒng)的“關(guān)鍵字”搜索方法為“search”(搜索)的話,autonomy采用的“模式識別”方法則應(yīng)該稱為“discover”(發(fā)現(xiàn)),因為它可以讓用戶找到一些事前他們不知道的信。Autonomy產(chǎn)品中提供的“聚類”功能正是“從搜索到發(fā)現(xiàn)”的最佳表現(xiàn)。

目前,Autonomy在國外比較成功的應(yīng)用案例集中在媒體、政府機構(gòu)、金融和信息產(chǎn)業(yè)等需要集中處理大量非結(jié)構(gòu)化數(shù)據(jù)的領(lǐng)域。2003年3月,Autonomy進入中國市場,目前主要集中在電信和政府市場。Autonomy追求建立符合企業(yè)內(nèi)部數(shù)據(jù)管理需求的平臺,可將放在不同位置的不同類型的數(shù)據(jù)進行有效梳理。Autonomy曾經(jīng)在美國安全局、美國國防部、美國航天局、英國警察署和美國陸軍有過成功應(yīng)用。對于網(wǎng)絡(luò)上出現(xiàn)的大量的有害信息,Autonomy可以做到事前發(fā)現(xiàn),從而幫助政府機構(gòu)采取及時地反應(yīng)。例如,政府有關(guān)部門要打擊網(wǎng)上非法買賣違禁藥物,使用“搖頭丸”、“興奮劑”等關(guān)鍵詞搜索出來的內(nèi)容多數(shù)是關(guān)于藥物危害、打擊犯罪等方面的正面文章,而出現(xiàn)“興奮”、“購買”、“單價”等關(guān)鍵詞的文章,則與非法買賣違禁藥物的相關(guān)度最高。通過這種非關(guān)鍵詞搜索的“模式識別”搜索,政府監(jiān)控部門可以有效打擊日益猖獗的網(wǎng)上犯罪。所以政府機構(gòu)和一些需要對信息進行監(jiān)控的機構(gòu)是該系統(tǒng)在中國的潛在市場。

4Autonomy的技術(shù)特點和優(yōu)勢分析

Autonomy軟件設(shè)計的原則是無需用戶改變已有的使用習(xí)慣,甚至無需改變已有的用戶界面,它支持所有傳統(tǒng)的檢索和設(shè)置方式,包括關(guān)鍵詞、邏輯語言、布爾語句等,同時提供給用戶更多、更簡潔的定義方法,如對所需信息的自然語言描述、文章概念的定義,還可以通過反饋的文章作為例子來訓(xùn)練個人聚焦和頻道。此外,它能夠通過自身軟件架構(gòu)的靈活性去適應(yīng)已有的系統(tǒng)架構(gòu),嵌入到已有的應(yīng)用中去,在用戶熟悉的界面之下提供新的功能。Autonomy中最關(guān)鍵的部分就是它的動態(tài)推理引擎(DynamicReasoningEngine,簡稱DRE),其中信息的概念分析、內(nèi)容提取、概念模式識別、相關(guān)度計算等關(guān)鍵工作都是由該動態(tài)推理引擎完成。當(dāng)用戶發(fā)出搜索指令后,它可以通過相關(guān)方法從互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、終端計算機等不同位置的信息源中找到與用戶要求最匹配的信息。它的技術(shù)特點主要有如下幾點:

4.1自動內(nèi)容綜合和精煉

Autonomy能操作的信息同樣包括各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如RDBMS的表格、LotusNotes等結(jié)構(gòu)化數(shù)據(jù),以及HTML頁面、Word文檔、電子表格、電子郵件非結(jié)構(gòu)化數(shù)據(jù)等。而且它可以綜合及理解豐富的多媒體內(nèi)容,包括音頻、視頻、圖像文件等。綜Autonomy能夠自動綜合來自200多種不同格式數(shù)據(jù)源的內(nèi)容。所有綜合后的文件如有任何改動都可以在Autonomy的基本結(jié)構(gòu)和數(shù)據(jù)源之間保持同步。

4.2個性化操作

Autonomy的自動建檔功能可以準(zhǔn)確理解個人和企業(yè)用戶的使用習(xí)慣和興趣愛好,并能進行追蹤。根據(jù)直接檔案和隱含檔案可以生成每個用戶的多側(cè)面概念型檔案,它們可以自動追隨用戶當(dāng)前的興趣,而無需用戶多次填寫任何形式的表格。Autonomy自動的個性化解決方案可以將用戶與有共同興趣的檔案或有間接關(guān)聯(lián)的檔案匹配起來。

4.3信息自動分類、聚類定義、索引

Autonomy獨有的自動信息聚類避免了手工分類的麻煩,可以將相關(guān)網(wǎng)站信息進行全自動分類,能實時、客觀地反映每個科學(xué)門類的信息變化,這與其他的模板式自動分類機制有著本質(zhì)的區(qū)別。Autonomy的架構(gòu)可以識別信息之間的主要關(guān)系,從而實現(xiàn)內(nèi)容間的交叉索引對照,無論是什么文檔,Autonomy都可以在操作層識別出與其相關(guān)聯(lián)的資料。此外,Autonomy還可以對內(nèi)容中最主要的概念進行總結(jié),可以根據(jù)原始查詢的上下文環(huán)境進行總結(jié),并且將最適用的動態(tài)摘要提交給指定需求。最關(guān)鍵的是Autonomy的這一切工作都無需人工干預(yù)自動進行,對企業(yè)應(yīng)用來說,這一點相當(dāng)有吸引力。

4.4主動匹配和信息地圖

像涉及安全方面的應(yīng)用可能有非常廣泛的信息搜索需求,從網(wǎng)站上最酷的新聞到剛剛播放的電視畫面,都可能與安全問題相關(guān)。利用Autonomy的主動匹配功能,可以在用戶日常工作中充分利用整個企業(yè)的信息系統(tǒng)為各個相關(guān)部門的相關(guān)人員提供有價值的信息。主動匹配可以將典型的文檔或者以數(shù)字為中心的用戶界面轉(zhuǎn)變成以任務(wù)為導(dǎo)向的智能界面,也就是說它能自動識別用戶當(dāng)前的問題,并確定相關(guān)信息。

Autonomy還可以自動生成二維或三維的信息圖,將某一時間段的所有信息通過形象的圖像展現(xiàn)在用戶面前,幫助用戶準(zhǔn)確、及時地把握世界各地的最新資訊。例如它的最新功能可以跟蹤一系列的郵件信息,告知檢測者每個郵件的流向和被轉(zhuǎn)發(fā)目標(biāo)。它還可以將連續(xù)的信息圖生成信息走勢圖,觀察出多個時間段的信息走勢,從而用戶能一眼看出某一個階段內(nèi)的信息發(fā)展趨勢。這是任何其他搜索系統(tǒng)目前還無法提供的功能。

5企業(yè)非結(jié)構(gòu)化信息搜索的商機,引得眾多IT巨頭紛紛加入搜索戰(zhàn)團,處理非結(jié)構(gòu)化信息的桌面搜索模式成為競爭焦點

企業(yè)網(wǎng)絡(luò)的搜索比網(wǎng)絡(luò)的搜索復(fù)雜很多,企業(yè)信息通常是以各種不同的格式(如電子表格、PDF、HTM網(wǎng)頁,甚至多媒體文件)存儲在各個不同的地方。同時,企業(yè)客戶要有可靠的存儲系統(tǒng),還有協(xié)作工具、安全工具等。所以企業(yè)搜索需要具備更聰明的功能,能從各種不同的信息來源做信息的收集和關(guān)聯(lián)。

企業(yè)非結(jié)構(gòu)化信息搜索的商機,引得眾多IT巨頭紛紛加入搜索戰(zhàn)團,處理非結(jié)構(gòu)化信息的桌面搜索模式成為競爭焦點。世界頭號軟件廠商的微軟、IBM、Autonomy、Yahoo、AOL等和Google正在開展直接的競爭,于2004年末2005年初紛紛推出了各自的企業(yè)搜索產(chǎn)品。