煙草數(shù)據(jù)挖掘論文
時間:2022-03-26 04:00:38
導(dǎo)語:煙草數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1研究背景
目前現(xiàn)有的針對煙草營銷策略的研究,多采用數(shù)據(jù)挖掘的思想,基于數(shù)據(jù)挖掘的營銷策略是對終端客戶進(jìn)行分類,根據(jù)用戶的銷量和誠信記錄把用戶分為多個等級,但這種分級策略只能反應(yīng)用戶的銷量信息,把這個分類作為營銷策略依據(jù)太單薄,只能起一定的輔助作用。更深入地研究是根據(jù)客戶的資料和歷史訂單數(shù)據(jù)對現(xiàn)有商戶進(jìn)行聚類,獲取到自主的商戶分類,但盲目的聚類會導(dǎo)致商戶的分類沒有實際意義,或獲取的結(jié)果是無助于營銷目的的。
2技術(shù)關(guān)鍵
本系統(tǒng)采用基于營銷目的的商戶聚類,技術(shù)關(guān)鍵包括三部分內(nèi)容:數(shù)據(jù)預(yù)處理中的特征選擇、基于限制目標(biāo)的商戶精確聚類和基于聚類結(jié)果的多層關(guān)聯(lián)規(guī)則算法的研究。
2.1特征選擇
假定獲取的數(shù)據(jù)的維數(shù)為n,通常情況下n是很大的一個數(shù),為簡化模型,也為了防止模型陷入過擬合(維數(shù)災(zāi)難),需要進(jìn)行降維處理,即僅把對項目改造判定起關(guān)鍵作用的因素挑選出來。本系統(tǒng)采用PCA算法來進(jìn)行降維處理,過程如下:
1)計算標(biāo)準(zhǔn)化后的矩陣Z的樣本的協(xié)方差矩陣Cov;
2)計算協(xié)方差矩陣Cov的本征向量e1,e2,…,en的本征值。本征值按大到小排序;
3)投影數(shù)據(jù)
到本征矢張成的空間之中,利用貢獻(xiàn)分析取前m個向量Y1,Y2,…,Ym。
2.2基于營銷目標(biāo)限制的商戶精確聚類算法
現(xiàn)有聚類算法一般沒有約束條件,只根據(jù)相似度來進(jìn)行聚類,為了能夠體現(xiàn)約束條件,需要在聚類相似度或者樣本距離之間把限制條件增加進(jìn)去,這樣在樣本聚類的時候即可使得具有相同營銷特性的樣本或者客戶被劃分到同一個類中。煙草終端商戶的大部分屬性是分類屬性,例如:地區(qū)、類別等,此外還有數(shù)字型屬性、日期型屬性,由于存在不同類型的屬性,常規(guī)的聚類算法無法使用,為此,采用把數(shù)字屬性和日期屬性劃分區(qū)間的思路,這樣可以轉(zhuǎn)化成分類屬性的方式來進(jìn)行聚類。進(jìn)而可建立如下商戶模型:分類對象X∈Ω,X=[A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,為簡便起見,將對象X∈Ω用向量(x1,x2,…,xm)表達(dá),如果屬性Aj的值不存在,則Aj=ε。令Χ={X1,X2,…,Xn}為n個分類對象的集合,用集合方式表達(dá)分類對象,則Xi={xi,1,xi,2,…,xi,m},如果屬性Aj的值不存在,則集合中不出現(xiàn)xi,j,容易得到|Xi|≤m。如果存在Xi,j=Xk,j,1≤j≤m,則Xi=Xk。為方便聚類,利用聚類匯總來壓縮原始數(shù)據(jù),從而達(dá)到提高算法效率的目的。一個類C可以由如下三元組(n,I,S)來表示。其中n為類C中的對象數(shù)量,I={i1,i2,…,iu}是C內(nèi)所有屬性值的集合,S={s1,s2,…,su},其中sj為ij在類C中的數(shù)量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,這同時也暗示集合I的元素按其在C中的數(shù)量按升序排列。三元組(n,I,S)被稱作類C的聚類匯總CS,CS的三個成員分別記作CS.n、CS.I和CS.S;對于CS.I的任一元素ij∈CS.I,則記作CS.I.ij,對于sj∈CS.S,則記作CS.S.sj,其中1≤j≤u。
2.3基于煙草營銷的多層關(guān)聯(lián)規(guī)則的研究
針對本項目,對關(guān)聯(lián)規(guī)則定義進(jìn)行擴(kuò)展,對形如:XY的關(guān)聯(lián)規(guī)則,不再限定X和Y為一個項目集,而把X和Y定義為條件的合取范式,每個條件Ai=True/False為布爾表達(dá)式。此時的Ai為一個項目集,它的含義與原來的X和Y的含義相同,如果把結(jié)果中的條件布爾表達(dá)式寫成Cj=True/False,則關(guān)聯(lián)規(guī)則有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)關(guān)聯(lián)規(guī)則的開采問題可以分解成以下兩個子問題:
①從數(shù)據(jù)集合或交易集合D中發(fā)現(xiàn)所有的頻繁項目集。
②從頻繁項目集中生成所有置信度不小于用戶定義的最小置信度minconf的關(guān)聯(lián)規(guī)則。即對任一個頻繁項目集F和F的所有非空真子集S,SF,如果sup(F)/sup(F-S)≥minconf,則(F-S)S就是一條有效的關(guān)聯(lián)規(guī)則。按上述方法發(fā)現(xiàn)所有類似的規(guī)則。這兩個步驟中第2步要相對容易,因此項目的研究將更關(guān)注第1步,由于最大頻繁項目集已經(jīng)隱含了所有頻繁項目集,所以可以把發(fā)現(xiàn)頻繁項目集的問題轉(zhuǎn)化為發(fā)現(xiàn)最大頻繁項目集的問題。針對煙草營銷的客戶,進(jìn)行關(guān)聯(lián)規(guī)則挖掘時,是在上一步的基礎(chǔ)上,即針對每一個商戶群進(jìn)行規(guī)則挖掘。在獲取到最大頻繁項目集后,順序生成頻繁項目集,然后獲取到可用的關(guān)聯(lián)規(guī)則。此時獲取的關(guān)聯(lián)規(guī)則是底層關(guān)聯(lián)規(guī)則,然后再采用概念樹的方法對獲取的底層關(guān)聯(lián)規(guī)則進(jìn)行匯總。概念樹由煙草領(lǐng)域?qū)<腋鶕?jù)屬性的領(lǐng)域知識提供,按特定屬性的概念層次從一般到具體排序。樹的根結(jié)點(diǎn)是用any表示最一般的概念,葉結(jié)點(diǎn)是最具體的概念即屬性的具體值。
在獲取多層關(guān)聯(lián)規(guī)則后,能靈活確定關(guān)聯(lián)規(guī)則的前后件,分析出不同層次各事務(wù)的關(guān)聯(lián)。能分析出任意兩個事務(wù)間的關(guān)聯(lián)關(guān)系;分析出任意一項事務(wù)與其他多項事務(wù)間的關(guān)聯(lián)關(guān)系;任意幾項事務(wù)與其他一項事務(wù)間的關(guān)聯(lián)關(guān)系,或者任意幾項事務(wù)與另外幾項事務(wù)間的關(guān)聯(lián)關(guān)系。如:某一時間,某品牌煙,商戶總進(jìn)貨量;某類別商戶,某品牌煙進(jìn)貨量;某商戶,某段時間,某卷煙進(jìn)貨量;某地址段,某品牌卷煙,商戶總進(jìn)貨量;某地址段,某段時間,某品牌卷煙,總進(jìn)貨量等等。
作者:耿曉斐單位:開封煙草專賣局