關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘論文

時間:2022-03-26 04:07:39

導(dǎo)語:關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘論文

1相關(guān)技術(shù)

關(guān)聯(lián)規(guī)則最初是針對購物籃分析問題提出的,目的是發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(TransactionDatabase)中不同商品之間的聯(lián)系。關(guān)聯(lián)規(guī)則是形如A=》B的蘊涵式,其中A稱為該關(guān)聯(lián)規(guī)則的前項,B稱為該關(guān)聯(lián)規(guī)則的后項。事務(wù),是一個明確定義的商業(yè)行為,如顧客在商店購物就是一次典型的事務(wù)。由用戶設(shè)定的支持度和置信度的門檻值,當(dāng)sup-port(A=>B)、confidence(A=>B)分別大于等于各自的門檻值時,認(rèn)為A=>B是有趣的,此兩值稱為最小支持度(minsupport)和最小置信度(minconfidence)。同時滿足minsupport和minconfidence的這種關(guān)聯(lián)規(guī)則就叫做強的關(guān)聯(lián)規(guī)則。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事物的集合,當(dāng)項集的支持計數(shù)≥D中事務(wù)總數(shù)|D|與minsup-port的乘積時,就叫做頻繁項集,當(dāng)項集的支持計數(shù)可能≥D中事務(wù)總數(shù)|D|與minsupport的乘積時,就叫做侯選項集。所有侯選項集K-項集的集合記作Ck,所有頻繁項集K-項集的集合常記作Lk,很明顯Lk奐Ck。如果僅依賴最小支持度和最小置信度這兩個參數(shù)的限制,所挖掘出的強關(guān)聯(lián)規(guī)則不一定是用戶感興趣的,因此,用戶可以根據(jù)實際應(yīng)用的需求,再結(jié)合自身的領(lǐng)域知識,通過選擇與實際分析任務(wù)有關(guān)的數(shù)據(jù)集,設(shè)置不同的參數(shù),限定前項和后項的個數(shù),選擇前項和后項包含的屬性等操作,對關(guān)聯(lián)規(guī)則的挖掘進(jìn)行約束。

2模糊集理論的引入

在討論實際問題的時候,需要判定模糊概念涵義,如判斷某個數(shù)據(jù)在模糊集的定義和歸屬,這時就需要普通集合與模糊集合可依某種法則相互轉(zhuǎn)換。模糊理論中的截集是模糊集合和普通集合之間相互轉(zhuǎn)換的一座橋梁。

3基于事務(wù)間數(shù)值型關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法

假設(shè)有一就業(yè)數(shù)據(jù)庫,先通過數(shù)據(jù)整理,將原始數(shù)據(jù)記錄值區(qū)間[0,10]偏置10個單位。由此就得到了經(jīng)過偏置后的數(shù)據(jù)庫記錄。再依滑動窗口方法,設(shè)maxspan=1(該值可以依實際情況的需要來定),就可將偏置后的數(shù)據(jù)庫數(shù)據(jù)整理轉(zhuǎn)化為擴展事務(wù)數(shù)據(jù)庫。再把擴展事務(wù)數(shù)據(jù)庫記錄通過隸屬度函數(shù)轉(zhuǎn)化為對應(yīng)的隸屬度。

4結(jié)語

事務(wù)間具有相互關(guān)聯(lián)的項天生就比事務(wù)內(nèi)的項之間的關(guān)聯(lián)的支持度來得低,這是一個很應(yīng)值得注意的現(xiàn)象。概括出來就是事務(wù)間項具有的低支持度性質(zhì),由此衍生出來的就是對提高低支持度項集間關(guān)聯(lián)規(guī)則挖掘效率的討論及其應(yīng)用。通過基于相似度度量的方法來轉(zhuǎn)換思路不失為一種好的方法,簡單地說就是在保證失真能被有效控制的狀態(tài)下通過科學(xué)有效的方法使我們能夠最大程度地逼近來接近真值。如何把這一思路運用到事務(wù)間關(guān)聯(lián)規(guī)則的挖掘上特別是能行之有效地對兩個或兩個以上的項進(jìn)行挖掘,這正是本文所想認(rèn)真討論的問題。,本文的模糊關(guān)聯(lián)規(guī)則算法對數(shù)據(jù)量較小或面對中小型數(shù)據(jù)量進(jìn)行處理(或者直接處理)也是可以的,但面對大數(shù)據(jù)量或超大數(shù)據(jù)量卻是存在一些問題的。原始數(shù)據(jù)庫轉(zhuǎn)化為擴展數(shù)據(jù)庫光這個計算工作量開銷的時間復(fù)雜度都是值得深思的;缺少信息壓縮存儲技術(shù)以便盡量降低算法的空間復(fù)雜度,如采用Hash技術(shù)等。

作者:李春青李海生單位:廣西民族師范學(xué)院