網(wǎng)絡(luò)信息挖掘評價(jià)論文
時(shí)間:2022-03-18 03:53:00
導(dǎo)語:網(wǎng)絡(luò)信息挖掘評價(jià)論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
【正文】
隨著電子商務(wù)的蓬勃興起,許多企業(yè)已經(jīng)開始意識到其所擁有的豐富的信息資源在商業(yè)決策中具有潛在的巨大商業(yè)價(jià)值。更好的決策支持需求和企業(yè)電子商務(wù)的開展正推動(dòng)著網(wǎng)絡(luò)信息挖掘系統(tǒng)的研究與開發(fā)。
鑒于網(wǎng)絡(luò)信息挖掘是在數(shù)據(jù)挖掘的基礎(chǔ)上發(fā)展起來的,因此對于網(wǎng)絡(luò)信息挖掘系統(tǒng)的基本問題,本文仍將利用數(shù)據(jù)挖掘系統(tǒng)的基本理論來描述。
目前,由于網(wǎng)絡(luò)信息挖掘系統(tǒng)的發(fā)展正在起步階段,因此它的分類還無法達(dá)到數(shù)據(jù)挖掘系統(tǒng)分類那樣細(xì)致。具體而言,對網(wǎng)絡(luò)信息挖掘系統(tǒng)分類可以從商業(yè)能力、挖掘數(shù)據(jù)類型、挖掘功能、數(shù)據(jù)分析方法和應(yīng)用領(lǐng)域角度進(jìn)行。其中商業(yè)能力角度的分類與數(shù)據(jù)挖掘系統(tǒng)的商業(yè)能力分類完全相同,即分為商業(yè)產(chǎn)品和研究原型。而從另外幾個(gè)角度看,網(wǎng)絡(luò)信息挖掘系統(tǒng)的類型具有自身一些特點(diǎn),例如從應(yīng)用領(lǐng)域角度看,網(wǎng)絡(luò)信息挖掘系統(tǒng)可以分為面向電子商務(wù)型、面向遠(yuǎn)程教育型、面向旅游型、面向廣告業(yè)型等。隨著網(wǎng)絡(luò)信息挖掘技術(shù)的進(jìn)一步發(fā)展,將出現(xiàn)更加豐富的網(wǎng)絡(luò)信息挖掘系統(tǒng)類型。
1系統(tǒng)評價(jià)現(xiàn)狀調(diào)查
據(jù)調(diào)查,目前國內(nèi)外還沒有出現(xiàn)完全針對網(wǎng)絡(luò)信息挖掘系統(tǒng)的評價(jià)成果,因而對網(wǎng)絡(luò)信息挖掘系統(tǒng)的評價(jià)具有一定的創(chuàng)新性。筆者認(rèn)為,對網(wǎng)絡(luò)信息挖掘系統(tǒng)的評價(jià)可以充分地借鑒數(shù)據(jù)挖掘系統(tǒng)的評價(jià)方法。應(yīng)該說這兩類系統(tǒng)在很多評價(jià)指標(biāo)上都有重合。
從國外來講,1998年前后已經(jīng)有一些研究人員和機(jī)構(gòu)對數(shù)據(jù)挖掘系統(tǒng)進(jìn)行了一定的評價(jià)研究。他們所采用的評價(jià)體系各有特點(diǎn),以下是一些簡要介紹。
1)J.F.Elder等人主要對17種數(shù)據(jù)挖掘系統(tǒng)進(jìn)行了評價(jià)[1],其中包括了著名的Clementine、IntelligentMiner系統(tǒng)。這些系統(tǒng)具有以下共同的特點(diǎn):單平臺(StandAlone)、多用途、支持多種模式和分類算法,并支持模式構(gòu)建中的項(xiàng)目階段。他們主要從6大方面對這些系統(tǒng)進(jìn)行比較,除此之外,他們還單獨(dú)從用戶端角度對數(shù)據(jù)挖掘系統(tǒng)性能進(jìn)行評價(jià)。他們認(rèn)為并非支持的算法越多越好,各種算法面對不同的問題其解決能力也是不同的,它們具有自身的優(yōu)點(diǎn)與缺點(diǎn)。在文章的最后,還對這17種產(chǎn)品的優(yōu)勢/劣勢作了總體的描述性評價(jià)。
2)M.A.King等人針對14種桌面型數(shù)據(jù)挖掘系統(tǒng)[2],重點(diǎn)對各個(gè)系統(tǒng)的特征和性能進(jìn)行比較。他們選用了20個(gè)評價(jià)指標(biāo),并設(shè)計(jì)了一個(gè)標(biāo)準(zhǔn)的評價(jià)過程——6分制評分標(biāo)準(zhǔn)來評價(jià)各種軟件工具的優(yōu)點(diǎn)和缺點(diǎn)。他們評價(jià)的特色在于針對4種算法的產(chǎn)品分別評價(jià),并采用4類數(shù)據(jù)集測試系統(tǒng)的性能。他們認(rèn)為網(wǎng)絡(luò)法(PolynomialandNeural)要比分割法(TreesandRules)更精確,另外也提出可以加入計(jì)算機(jī)環(huán)境、數(shù)據(jù)庫連接性、提供商的穩(wěn)定性等指標(biāo)進(jìn)一步評價(jià)。
3)D.W.Abbott等人主要針對高端型(High-end)用于欺詐甄別的數(shù)據(jù)挖掘系統(tǒng)進(jìn)行了評價(jià)[3]。盡管僅選擇了5個(gè)系統(tǒng)(Clementine、IntelligentMinerforMata、Darwin、En-terpriseMiner、PatternRecognitionWorkbench)進(jìn)行評價(jià),但是他們針對這5個(gè)專門應(yīng)用于欺詐甄別的系統(tǒng)進(jìn)行了細(xì)致的比較。
4)M.Goebel等人將數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD)與數(shù)據(jù)挖掘結(jié)合到一起評價(jià)[4]。他們在介紹一般知識發(fā)現(xiàn)任務(wù)以及解決這些任務(wù)的方法基礎(chǔ)上,主要調(diào)查了43種提供這類功能的軟件工具。這些工具既包括研究的原型系統(tǒng),也包括已經(jīng)商業(yè)化的產(chǎn)品。其中有較為著名的Clementine、DBMiner、IntelligentMiner系統(tǒng)。他們采用了一個(gè)系統(tǒng)特征分類體系對上述產(chǎn)品進(jìn)行比較,并提出一些尚待解決的問題:如不同技術(shù)的集成、可擴(kuò)展性、與數(shù)據(jù)庫的無縫集成、對正在變化中的數(shù)據(jù)進(jìn)行管理以及非標(biāo)準(zhǔn)的數(shù)據(jù)類型等問題。
5)J.Hah博士沒有針對個(gè)別的數(shù)據(jù)挖掘系統(tǒng)具體評價(jià),但他認(rèn)為評價(jià)一個(gè)數(shù)據(jù)挖掘系統(tǒng)應(yīng)包括如下幾個(gè)方面[5]:數(shù)據(jù)類型、系統(tǒng)問題、數(shù)據(jù)源、數(shù)據(jù)控制的功能與方法、數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的結(jié)合、可伸縮性、可視化工具、數(shù)據(jù)挖掘查詢語言和圖形用戶接口。
6)A.Berson等認(rèn)為數(shù)據(jù)挖掘軟件產(chǎn)品因?yàn)椴煌哪繕?biāo)用戶和不同類型的解決問題而具有不同的重點(diǎn)[6]。主要可以分為目標(biāo)解決方案、商業(yè)工具、商業(yè)分析工具、研究分析工具4類。另外,從目前整個(gè)數(shù)據(jù)挖掘市場看也可以分成3個(gè)主要組成部分:通用的工具、綜合DSS/OLAP/數(shù)據(jù)挖掘工具和快速成長的面向特定應(yīng)用的工具。他們還進(jìn)一步提供了一套專門用于數(shù)據(jù)挖掘工具評價(jià)的屬性和方法,對11種具體的工具進(jìn)行了評價(jià),其中包括Clementine、IntelligentMiner等著名的工具。
從國內(nèi)來看,數(shù)據(jù)挖掘系統(tǒng)的評價(jià)研究不如國外活躍,這與數(shù)據(jù)挖掘系統(tǒng)在國內(nèi)的應(yīng)用仍處于初步階段有直接關(guān)系。目前這方面的研究狀況如下。
朱愛群提出了一種高級記分卡系統(tǒng)[7],采用該記分系統(tǒng)有助于商業(yè)用戶更好地比較不同的數(shù)據(jù)挖掘技術(shù),并以此作出正確的選擇。該系統(tǒng)共有3種不同的記分卡:商業(yè)記分卡、算法記分卡、應(yīng)用記分卡。
從上述文獻(xiàn)的調(diào)查看,國內(nèi)外數(shù)據(jù)挖掘系統(tǒng)評價(jià)普遍具有的特點(diǎn)是:
1)重視系統(tǒng)算法能力的評價(jià)。在7個(gè)調(diào)查對象中,其中6個(gè)都明確采用了算法評價(jià)指標(biāo),特別是J.F.Elder、D.W.Abbott、朱愛群等人,對算法指標(biāo)的分析尤為細(xì)致。
2)突出或者具有從商業(yè)能力角度的評價(jià)。朱愛群和A.Berson都明確提出采用商業(yè)能力指標(biāo),而其他研究者提供的從用戶端角度對系統(tǒng)易用性的評價(jià)實(shí)際上可以作為系統(tǒng)商業(yè)能力評價(jià)的一部分。
3)缺少對數(shù)據(jù)挖掘流程的評價(jià)。數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、模型評估、模型應(yīng)用等一系列步驟是幾乎每個(gè)數(shù)據(jù)挖掘系統(tǒng)所必須經(jīng)歷的,往往各種系統(tǒng)在每個(gè)階段表現(xiàn)的能力各有不同,因此有必要對過程中的每個(gè)階段進(jìn)行評價(jià)。
4)缺少從應(yīng)用能力角度的評價(jià)。從所有的調(diào)查對象中看,僅有國內(nèi)的一個(gè)評價(jià)提到了應(yīng)用評價(jià),而且其具體的指標(biāo)并不是直接針對如保險(xiǎn)業(yè)、零售業(yè)、電子商務(wù)等實(shí)際應(yīng)用領(lǐng)域的。
由此可見,本文所要進(jìn)行的網(wǎng)絡(luò)信息挖掘系統(tǒng)的評價(jià)應(yīng)當(dāng)積極吸取已有數(shù)據(jù)挖掘系統(tǒng)評價(jià)的優(yōu)點(diǎn),同時(shí)結(jié)合網(wǎng)絡(luò)信息挖掘的特點(diǎn)來彌補(bǔ)評價(jià)中的不足。
2評價(jià)系統(tǒng)的選擇
由于目前許多數(shù)據(jù)挖掘系統(tǒng)也同時(shí)提供網(wǎng)絡(luò)信息挖掘功能,因此本文所要評價(jià)的網(wǎng)絡(luò)信息挖掘系統(tǒng),一方面從一些著名的數(shù)據(jù)挖掘系統(tǒng)中選擇,一方面將參考KD-nuggets上有關(guān)網(wǎng)絡(luò)信息挖掘軟件的最新統(tǒng)計(jì)報(bào)道。
從文獻(xiàn)調(diào)查看[8],Int
elligentMiner、EnterpriseMiner、MineSet、Clementine、Darwin、Scenario等被超過50%的團(tuán)體或個(gè)人選用作為數(shù)據(jù)挖掘評價(jià)系統(tǒng)。
從KDNuggets2001對數(shù)據(jù)挖掘工具利用情況的調(diào)查看,位于前5位的工具依次為:Clementine(18%)、SPSS/An-swerTree(16%)、SAS(12%)、CART/MARS(11%)、SASEM(6%)。
通過進(jìn)一步調(diào)查KDnuggets關(guān)于網(wǎng)絡(luò)信息挖掘的報(bào)道[9],可以發(fā)現(xiàn)它所提供的19種網(wǎng)絡(luò)信息挖掘軟件工具是目前這個(gè)領(lǐng)域比較全面和權(quán)威的。因此,本文決定對這19種網(wǎng)絡(luò)信息挖掘軟件工具展開調(diào)查(見表1)。
表1商業(yè)能力評價(jià)(產(chǎn)品成熟度和提供商實(shí)力)
附圖
注:采用7分制評分,各個(gè)數(shù)字代表的含義分別是:1—優(yōu)秀;2—好;3—一般;4—還可以;5—較差;6—沒有;7—有,但無法評價(jià)。
從上述調(diào)查可以發(fā)現(xiàn),比較熟悉的數(shù)據(jù)挖掘系統(tǒng)的提供商諸如SPSS公司、SAS公司在網(wǎng)絡(luò)信息挖掘市場上仍然比較活躍,特別是SPSS公司,它目前擁有Clementine和net.Analysis兩種網(wǎng)絡(luò)信息挖掘軟件產(chǎn)品。3評價(jià)指標(biāo)與方法
通過對數(shù)據(jù)挖掘系統(tǒng)評價(jià)方法的調(diào)查,了解到目前還沒有針對網(wǎng)絡(luò)信息挖掘系統(tǒng)評價(jià)報(bào)告公布出來。因此,本文在借鑒多種數(shù)據(jù)挖掘系統(tǒng)評價(jià)方法的基礎(chǔ)上,提出從商業(yè)能力、算法能力、網(wǎng)絡(luò)信息挖掘過程能力、電子商務(wù)應(yīng)用能力這4個(gè)角度來評價(jià)網(wǎng)絡(luò)信息挖掘系統(tǒng)的綜合能力,以期為網(wǎng)絡(luò)信息挖掘系統(tǒng)的選擇提供一定的參考。
3.1商業(yè)能力
這個(gè)指標(biāo)又具體通過下面3個(gè)子指標(biāo)體現(xiàn):
1)產(chǎn)品的成熟度和提供商的實(shí)力。這個(gè)指標(biāo)可以體現(xiàn)網(wǎng)絡(luò)信息挖掘軟件產(chǎn)品是否成熟及它的提供商具備的實(shí)力的大小。通常可以從產(chǎn)品推出時(shí)間、更新頻率、公司創(chuàng)立時(shí)間、擁有客戶數(shù)量、客戶涉及領(lǐng)域等多個(gè)方面綜合考慮。
2)易用性。這個(gè)指標(biāo)主要從用戶端角度來考慮的,又可以分為如下4個(gè)子指標(biāo):①挖掘過程的清晰度;②無技術(shù)術(shù)語;③熟悉的環(huán)境;④可視化的報(bào)告。
3)投資回報(bào)率(ReturnonInvestment,ROI)。這個(gè)指標(biāo)通常被認(rèn)為是一個(gè)主觀性很強(qiáng)、不易衡量的指標(biāo),因?yàn)閷λ脑u價(jià)很大程度上依賴于開展的個(gè)別項(xiàng)目以及挖掘?qū)<业膶I(yè)知識和技能。然而它仍不失為衡量網(wǎng)絡(luò)信息挖掘系統(tǒng)商業(yè)能力的重要指標(biāo)之一。在電子商務(wù)環(huán)境下,網(wǎng)絡(luò)可以使投資回報(bào)率的評測較易實(shí)現(xiàn),結(jié)果更為客觀。這個(gè)指標(biāo)的評價(jià),一方面可以通過各個(gè)網(wǎng)絡(luò)信息挖掘軟件的新聞報(bào)道進(jìn)行分析,另一方面如果可以獲得網(wǎng)絡(luò)信息挖掘軟件提供商或領(lǐng)域?qū)<业目陀^評價(jià)則更好。
3.2算法能力
算法能力指標(biāo)用于評價(jià)在系統(tǒng)挖掘網(wǎng)絡(luò)信息過程中某種算法的有效性。該指標(biāo)下目前僅列出了8個(gè)子指標(biāo),即8種算法:①?zèng)Q策樹;②神經(jīng)網(wǎng)絡(luò);③回歸;④RadialBasisFunctions;⑤最近鄰;⑥NearestMeanKohonen和自組織圖(Self-organizingMaps);⑦聚類;⑧關(guān)聯(lián)規(guī)則。
由于新的挖掘算法不斷出現(xiàn),可能這里列出的算法不完整,在具體評價(jià)時(shí)可添加。
3.3網(wǎng)絡(luò)信息挖掘過程能力
這個(gè)角度的評價(jià)是以往的數(shù)據(jù)挖掘系統(tǒng)評價(jià)所缺乏的,因此本文所提出的網(wǎng)絡(luò)信息挖掘系統(tǒng)的評價(jià)體系中特別加入這個(gè)指標(biāo)。它主要被用來評價(jià)網(wǎng)絡(luò)信息挖掘系統(tǒng)在網(wǎng)絡(luò)信息挖掘過程的各個(gè)階段所表現(xiàn)的能力。具體分為如下5個(gè)子指標(biāo):①商業(yè)問題理解;②數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)選擇,數(shù)據(jù)預(yù)處理,數(shù)據(jù)轉(zhuǎn)換;③網(wǎng)絡(luò)信息挖掘模型;④模型評價(jià);⑤模型應(yīng)用。
一般的網(wǎng)絡(luò)信息挖掘系統(tǒng)都遵循這樣的5個(gè)基本階段。當(dāng)然有些系統(tǒng)可能也有略微的差別,如WUM6.0的挖掘過程重點(diǎn)就是在前3個(gè)階段。
3.4電子商務(wù)應(yīng)用能力
應(yīng)用能力角度的評價(jià)也是數(shù)據(jù)挖掘系統(tǒng)評價(jià)中所忽視的,同時(shí)由于網(wǎng)絡(luò)信息挖掘在電子商務(wù)方面的應(yīng)用點(diǎn)在不斷增多,本文特別設(shè)置從電子商務(wù)應(yīng)用能力角度評價(jià)的指標(biāo)。根據(jù)目前掌握的應(yīng)用情況,又具體分為如下5個(gè)子指標(biāo):①站點(diǎn)布局/設(shè)計(jì);②交叉銷售;③促銷(Up-sells);④個(gè)性化/推薦;⑤早期預(yù)警。
如果新的應(yīng)用層面出現(xiàn),可以考慮添入新的子指標(biāo)。
4初步評價(jià)分析
目前,筆者僅根據(jù)在網(wǎng)上可獲取的信息來對各種系統(tǒng)的相應(yīng)屬性進(jìn)行評價(jià)。目前可以得到的結(jié)果如下。
1)網(wǎng)絡(luò)信息挖掘軟件與數(shù)據(jù)挖掘軟件的關(guān)聯(lián)。本文調(diào)查的網(wǎng)絡(luò)信息挖掘軟件的提供商中一些是比較熟知的提供數(shù)據(jù)挖掘軟件的公司,如Clementine網(wǎng)絡(luò)信息挖掘應(yīng)用模板(ClementineWebMining)的提供者就是SPSS公司,該模板是該公司Clementine的應(yīng)用模板之一。又如Web-hound的提供者是SAS公司??梢姡絹碓蕉嗟臄?shù)據(jù)挖掘軟件公司將目光投入到網(wǎng)絡(luò)信息挖掘及其應(yīng)用中。當(dāng)然這個(gè)充滿前景的領(lǐng)域也吸引了眾多新的擁有網(wǎng)絡(luò)信息挖掘先進(jìn)技術(shù)的小公司的加盟。
2)產(chǎn)品的成熟度和提供商的實(shí)力比較。通過對這19種軟件產(chǎn)品的成熟度和提供商的實(shí)力進(jìn)行評價(jià),發(fā)現(xiàn)大概有1/3的網(wǎng)絡(luò)信息挖掘軟件的商業(yè)能力超過了普通水平(見圖1)。原來數(shù)據(jù)挖掘系統(tǒng)領(lǐng)域的領(lǐng)先者,像SPSS公司和SAS公司,在網(wǎng)絡(luò)信息挖掘系統(tǒng)領(lǐng)域仍然保持很強(qiáng)的商業(yè)能力。當(dāng)然,本文的評價(jià)中還有NetTracker的商業(yè)能力也獲得了較好的評價(jià)。調(diào)查中大概有一半的軟件產(chǎn)品的商業(yè)能力處于普通水平之下。另外表1中Analog和WUM6.0仍為研究原型系統(tǒng),故本次調(diào)查暫不對其商業(yè)能力進(jìn)行評價(jià)。
附圖
圖1商業(yè)能力評價(jià)(產(chǎn)品成熟度和提供商實(shí)力)
當(dāng)然;由于筆者主要通過網(wǎng)站調(diào)查,對信息的理解往往帶有個(gè)人主觀色彩,在評價(jià)結(jié)果中不可避免存在偏差。
5未來工作
筆者認(rèn)為此類評價(jià)工作應(yīng)該將專家調(diào)查和二手信息收集相結(jié)合。可以利用專家調(diào)查法獲得較為科學(xué)的指標(biāo)權(quán)重,進(jìn)一步完善本文所建立的網(wǎng)絡(luò)信息挖掘系統(tǒng)的評價(jià)指標(biāo)體系。另外可以嘗試?yán)矛F(xiàn)有的數(shù)據(jù)集進(jìn)行一些可能的測試工作,如網(wǎng)絡(luò)信息挖掘準(zhǔn)確度的定量評價(jià)。
綜上所述,網(wǎng)絡(luò)信息挖掘發(fā)展方興未艾。從國內(nèi)外現(xiàn)狀看,網(wǎng)絡(luò)信息挖掘系統(tǒng)評價(jià)工作也僅處于起步階段。希望本文所提出的網(wǎng)絡(luò)信息挖掘系統(tǒng)評價(jià)體系和初步的評價(jià)結(jié)果對國內(nèi)進(jìn)一步開展這方面的研究有所裨益。
【參考文獻(xiàn)】
1ElderJ,AbbottDW.AComparisonofLeading DataMiningToolsIn:FourthAnnual
ConferenceonKnowledgeDiscovery&DataMining.NewYork:[s.n],1998
2KingMA,ElderJF,etal.EvaluationofFourteenDesktopDataMining
Tools,Im:1998IEEEInternationalConferenceonSystems,Man,andCybernetics,SanDiego:[s.n],1998
3AbbottDW,MatkovskyIP,ElderJF.AnEvaluationofHigh-endDataMiningToolsforFraudDetection.In:1998IEEEInternationalConferenceonSystems,Man,andCybernetics.SanDiego:[s.n],1998
4GoebelN,GruenwaldL.ASurveyofDataMiningandKnowledgeDiscoverySoftware
Tools.ACMSIGKDD,1999(6)
5HanJKamberM.數(shù)據(jù)挖掘:概念與技術(shù).北京:機(jī)械工業(yè)出版社,2001
6BersonA,elal,構(gòu)建面向CRM的數(shù)據(jù)挖掘應(yīng)用.賀奇等譯.北京:人民郵電出版社,2001
7朱愛群.客戶關(guān)系管理與數(shù)據(jù)挖掘.北京:中國財(cái)政經(jīng)濟(jì)出版社,2001
8http:///polls/dm_tools_2001_october.htm
9http:///software/web.Html