數(shù)據(jù)挖掘論文范文10篇

時(shí)間:2024-01-04 13:50:55

導(dǎo)語(yǔ):這里是公務(wù)員之家根據(jù)多年的文秘經(jīng)驗(yàn),為你推薦的十篇數(shù)據(jù)挖掘論文范文,還可以咨詢客服老師獲取更多原創(chuàng)文章,歡迎參考。

數(shù)據(jù)挖掘論文

科研數(shù)據(jù)挖掘技術(shù)論文

一、數(shù)據(jù)挖掘相關(guān)概念

數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來(lái)的一門新興學(xué)科,它涉及到數(shù)據(jù)庫(kù)和人工智能等多個(gè)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的普及數(shù)據(jù)庫(kù)產(chǎn)生大量數(shù)據(jù),能夠從這些大量數(shù)據(jù)中抽取出有價(jià)值信息的技術(shù)稱之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計(jì)學(xué)方法、關(guān)聯(lián)規(guī)則挖掘、決策樹(shù)方法、聚類方法等八種方法,關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數(shù)據(jù)中挖掘出有價(jià)值的能夠揭示實(shí)體和數(shù)據(jù)項(xiàng)間某些隱藏的聯(lián)系的有關(guān)知識(shí),其中描述關(guān)聯(lián)規(guī)則的兩個(gè)重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當(dāng)Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進(jìn)一步進(jìn)行分析和應(yīng)用的規(guī)則。

二、使用Weka進(jìn)行關(guān)聯(lián)挖掘

Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費(fèi)的、非商業(yè)化的、基于JAVA環(huán)境下開(kāi)源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來(lái)探索數(shù)據(jù)環(huán)境的,Experimenter是對(duì)各種實(shí)驗(yàn)計(jì)劃進(jìn)行數(shù)據(jù)測(cè)試,KnowledgeFlow和Explorer類似,但該模塊通過(guò)其特殊的接口可以讓使用者通過(guò)拖動(dòng)的形式去創(chuàng)建實(shí)驗(yàn)方案,Simple-CLI為簡(jiǎn)單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來(lái)進(jìn)行。

(一)數(shù)據(jù)預(yù)處理

數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進(jìn)行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎(jiǎng)總分、科研立項(xiàng)總分、科研總得分更有利于數(shù)據(jù)挖掘計(jì)算,在這里我們將以上得分分別確定分類屬性值。

查看全文

Web數(shù)據(jù)挖掘論文

1Web數(shù)據(jù)挖掘面臨的問(wèn)題

目前面向Web的數(shù)據(jù)挖掘面臨的問(wèn)題,主要有兩個(gè)方面:

1.1數(shù)據(jù)庫(kù)環(huán)境的異構(gòu)型

Web上的每個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,數(shù)據(jù)源之間是異構(gòu)的,外加上各個(gè)站點(diǎn)的信息和組織的不同,Web網(wǎng)站就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)環(huán)境。要對(duì)這些數(shù)據(jù)進(jìn)行挖掘,首先,要解決各個(gè)站點(diǎn)之間的異構(gòu)數(shù)據(jù)集成,提供用戶統(tǒng)一界面,從復(fù)雜的數(shù)據(jù)源中取得所需的有用的信息知識(shí)。其次,有關(guān)Web上的數(shù)據(jù)查詢。

1.2數(shù)據(jù)結(jié)構(gòu)的半結(jié)構(gòu)化

Web上的數(shù)據(jù)比較復(fù)雜,各個(gè)站點(diǎn)的數(shù)據(jù)都獨(dú)立設(shè)計(jì),具有動(dòng)態(tài)可變性。雖然Web上的數(shù)據(jù)形成半結(jié)構(gòu)化數(shù)據(jù)。這些問(wèn)題是進(jìn)行Web數(shù)據(jù)挖掘所面臨的最大困難。

查看全文

油井?dāng)?shù)據(jù)挖掘論文

1系統(tǒng)結(jié)構(gòu)組成

系統(tǒng)采用C/S+B/S結(jié)構(gòu),主要由前端數(shù)據(jù)采集設(shè)備(位移及載荷傳感器)、站點(diǎn)客戶端、數(shù)據(jù)庫(kù)及Web服務(wù)器等組成。各部分采取分布式協(xié)同處理運(yùn)行方式,站點(diǎn)客戶端利用前端采集的數(shù)據(jù)獨(dú)立分析計(jì)算,分析完成后上傳至數(shù)據(jù)庫(kù)服務(wù)器,并通過(guò)網(wǎng)頁(yè)服務(wù)器對(duì)外。

2系統(tǒng)數(shù)據(jù)

2.1系統(tǒng)數(shù)據(jù)結(jié)構(gòu)系統(tǒng)采用MicrosoftSQLServer,創(chuàng)建了WPGUI與WPCHQ數(shù)據(jù)庫(kù)來(lái)管理3萬(wàn)余口油井?dāng)?shù)據(jù)采集、處理及存儲(chǔ)等,建設(shè)數(shù)據(jù)表65張(見(jiàn)主要數(shù)據(jù)表的關(guān)系圖2),主要包括生產(chǎn)井的完井?dāng)?shù)據(jù)、靜態(tài)數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)、采集數(shù)據(jù)、原油物性數(shù)據(jù)、機(jī)桿管泵等技術(shù)數(shù)據(jù),同時(shí)系統(tǒng)保存了油井近兩年功圖電參數(shù)據(jù)(每天每口井到少100張),以及根據(jù)這些數(shù)據(jù)分析計(jì)算出來(lái)的結(jié)果和匯總生成的數(shù)據(jù)。

3數(shù)據(jù)挖掘應(yīng)用

數(shù)據(jù)挖掘是從大量數(shù)據(jù)集中發(fā)現(xiàn)可行信息的過(guò)程,是統(tǒng)計(jì)分析技術(shù)、數(shù)據(jù)庫(kù)技術(shù)及人工智能技術(shù)的綜合。面對(duì)油井工況實(shí)時(shí)分析及功圖計(jì)產(chǎn)系統(tǒng)大量的油井生產(chǎn)完備數(shù)據(jù),長(zhǎng)慶油田充分利用數(shù)據(jù)挖掘技術(shù),對(duì)數(shù)據(jù)進(jìn)一步清理、集成、轉(zhuǎn)換、挖掘應(yīng)用,深化功圖系統(tǒng)數(shù)據(jù)分析,先后開(kāi)展了動(dòng)液面計(jì)算,系統(tǒng)效率在線實(shí)時(shí)監(jiān)測(cè)、區(qū)塊動(dòng)態(tài)分析研究等,并應(yīng)用于油田現(xiàn)場(chǎng),取得了較好的效果,既節(jié)約了生產(chǎn)成本,又方便了現(xiàn)場(chǎng)管理應(yīng)用,進(jìn)一步提升系統(tǒng)在長(zhǎng)慶油田數(shù)字化前端的核心地位。

查看全文

專利數(shù)據(jù)挖掘論文

一、專利數(shù)據(jù)挖掘

數(shù)據(jù)挖掘技術(shù)是延伸和擴(kuò)展了傳統(tǒng)分析方法,可以發(fā)現(xiàn)傳統(tǒng)分析方法不能發(fā)現(xiàn)的內(nèi)容和規(guī)律,并且它將人們從單調(diào)、枯燥的閱讀專利文獻(xiàn)的工作中解放出來(lái),使用計(jì)算機(jī)代替了人類勞動(dòng),這樣不僅提高了效率,而且提升了準(zhǔn)確度。因此,數(shù)據(jù)挖掘作為一個(gè)專利分析的強(qiáng)有力工具被引入到專利分析中來(lái),并且得到快速的發(fā)展應(yīng)用。專利數(shù)據(jù)挖掘流程應(yīng)考慮的問(wèn)題:一是用數(shù)據(jù)挖掘解決什么樣的問(wèn)題;二是為進(jìn)行數(shù)據(jù)挖掘所做的數(shù)據(jù)準(zhǔn)備;三是數(shù)據(jù)挖掘的各種分析算法。故專利數(shù)據(jù)挖掘的一般過(guò)程通常按照以下步驟來(lái)完成:領(lǐng)會(huì)數(shù)據(jù)挖掘的目的,獲取分析所用的數(shù)據(jù)集合,探索、清理和預(yù)處理數(shù)據(jù),選擇要使用的數(shù)據(jù)挖掘技術(shù),使用算法解決問(wèn)題,解釋算法的結(jié)果。而其一般流程可簡(jiǎn)化為三個(gè)階段:數(shù)據(jù)準(zhǔn)備→數(shù)據(jù)挖掘→結(jié)果解釋和評(píng)價(jià)。本文采用簡(jiǎn)化的流程進(jìn)行實(shí)證分析。

二、石家莊地區(qū)制藥企業(yè)專利數(shù)據(jù)挖掘

本文對(duì)石家莊地區(qū)制藥企業(yè)的專利數(shù)據(jù)進(jìn)行挖掘分析,挖掘?qū)ο笫侨A北制藥集團(tuán)公司、石家莊制藥集團(tuán)有限公司、石家莊神威藥業(yè)股份有限公司、石家莊四藥股份、河北以嶺藥業(yè)股份有限公司、石家莊市華曙制藥集團(tuán)、河北醫(yī)科大學(xué)制藥廠、河北圣雪大成制藥有限責(zé)任公司等地址在石家莊且具有一定代表性的藥企,希望通過(guò)這些藥企數(shù)據(jù)能夠找到石家莊地區(qū)制藥領(lǐng)域的核心組成,并能為藥企更好地發(fā)展提供有力的信息支持。IPC號(hào)是目前權(quán)威的專利技術(shù)主題的標(biāo)識(shí)編碼之一,基本包含了各行各業(yè)的專利信息,是一個(gè)龐大的專利信息體系。目前國(guó)內(nèi)外很多分析方法及技術(shù)大部分是基于專利的IPC分類號(hào)來(lái)分析專利技術(shù)主題的,此分析方法有一定的參考價(jià)值和科學(xué)性,而且對(duì)于具有大量專利信息的分析具有很好的總結(jié)概括效果。本文以專利全部IPC號(hào)為分析對(duì)象,并且構(gòu)建IPC號(hào)之間的關(guān)聯(lián)規(guī)則,在最大程度上揭示隱含的專利技術(shù)關(guān)聯(lián)性,從而為石家莊地區(qū)制藥企業(yè)專利技術(shù)的發(fā)展提供參考。

1.數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)來(lái)源的準(zhǔn)確與否是數(shù)據(jù)分析與挖掘的基礎(chǔ),是數(shù)據(jù)分析與挖掘的根本。本文所使用的石家莊地區(qū)制藥領(lǐng)域?qū)@麛?shù)據(jù)由萬(wàn)方數(shù)據(jù)公司提供,以制藥企業(yè)地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區(qū)制藥領(lǐng)域?qū)@?44條,分別分布在A、B、C、D、E、F、G、H八個(gè)大部。對(duì)專利數(shù)據(jù)庫(kù)中的644條專利進(jìn)行篩選,根據(jù)“分類號(hào)”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區(qū)制藥領(lǐng)域沒(méi)有聯(lián)系或聯(lián)系很小,不宜保留。根據(jù)“申請(qǐng)人(專利權(quán)人)”字段的限制,剔除與石家莊地區(qū)制藥不相關(guān)或制藥企業(yè)地址不在石家莊地區(qū)的專利。最后篩選出590條最符合該領(lǐng)域特點(diǎn)的專利。由于IPC號(hào)在幾乎所有現(xiàn)存數(shù)據(jù)庫(kù)中均是以一個(gè)字段存儲(chǔ)一個(gè)專利的所有IPC分類號(hào)的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個(gè)專利一般都有好幾個(gè)分類號(hào),而每個(gè)企業(yè)又研究大量的專利,所以在進(jìn)行專利分析之前,需要對(duì)專利IPC號(hào)進(jìn)行數(shù)據(jù)整理。由于過(guò)于細(xì)致的IPC分類號(hào)并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號(hào)的前4位。并將申請(qǐng)人與其對(duì)應(yīng)的多條IPC號(hào)進(jìn)行拆分,拆分后的數(shù)據(jù)項(xiàng)有773條,即顯示每個(gè)申請(qǐng)人對(duì)應(yīng)的一條IPC分類號(hào)。

2.數(shù)據(jù)挖掘。本文數(shù)據(jù)挖掘過(guò)程將采用Excel和SQLsever2005軟件,首先對(duì)所得到的數(shù)據(jù)導(dǎo)入SQLserver2005進(jìn)行挖掘,利用SQLserver2005可以直接進(jìn)行IPC號(hào)的關(guān)聯(lián)規(guī)則挖掘,然后對(duì)專利信息進(jìn)行分析。

查看全文

煙草數(shù)據(jù)挖掘論文

1研究背景

目前現(xiàn)有的針對(duì)煙草營(yíng)銷策略的研究,多采用數(shù)據(jù)挖掘的思想,基于數(shù)據(jù)挖掘的營(yíng)銷策略是對(duì)終端客戶進(jìn)行分類,根據(jù)用戶的銷量和誠(chéng)信記錄把用戶分為多個(gè)等級(jí),但這種分級(jí)策略只能反應(yīng)用戶的銷量信息,把這個(gè)分類作為營(yíng)銷策略依據(jù)太單薄,只能起一定的輔助作用。更深入地研究是根據(jù)客戶的資料和歷史訂單數(shù)據(jù)對(duì)現(xiàn)有商戶進(jìn)行聚類,獲取到自主的商戶分類,但盲目的聚類會(huì)導(dǎo)致商戶的分類沒(méi)有實(shí)際意義,或獲取的結(jié)果是無(wú)助于營(yíng)銷目的的。

2技術(shù)關(guān)鍵

本系統(tǒng)采用基于營(yíng)銷目的的商戶聚類,技術(shù)關(guān)鍵包括三部分內(nèi)容:數(shù)據(jù)預(yù)處理中的特征選擇、基于限制目標(biāo)的商戶精確聚類和基于聚類結(jié)果的多層關(guān)聯(lián)規(guī)則算法的研究。

2.1特征選擇

假定獲取的數(shù)據(jù)的維數(shù)為n,通常情況下n是很大的一個(gè)數(shù),為簡(jiǎn)化模型,也為了防止模型陷入過(guò)擬合(維數(shù)災(zāi)難),需要進(jìn)行降維處理,即僅把對(duì)項(xiàng)目改造判定起關(guān)鍵作用的因素挑選出來(lái)。本系統(tǒng)采用PCA算法來(lái)進(jìn)行降維處理,過(guò)程如下:

查看全文

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘論文

1相關(guān)技術(shù)

關(guān)聯(lián)規(guī)則最初是針對(duì)購(gòu)物籃分析問(wèn)題提出的,目的是發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(kù)(TransactionDatabase)中不同商品之間的聯(lián)系。關(guān)聯(lián)規(guī)則是形如A=》B的蘊(yùn)涵式,其中A稱為該關(guān)聯(lián)規(guī)則的前項(xiàng),B稱為該關(guān)聯(lián)規(guī)則的后項(xiàng)。事務(wù),是一個(gè)明確定義的商業(yè)行為,如顧客在商店購(gòu)物就是一次典型的事務(wù)。由用戶設(shè)定的支持度和置信度的門檻值,當(dāng)sup-port(A=>B)、confidence(A=>B)分別大于等于各自的門檻值時(shí),認(rèn)為A=>B是有趣的,此兩值稱為最小支持度(minsupport)和最小置信度(minconfidence)。同時(shí)滿足minsupport和minconfidence的這種關(guān)聯(lián)規(guī)則就叫做強(qiáng)的關(guān)聯(lián)規(guī)則。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事物的集合,當(dāng)項(xiàng)集的支持計(jì)數(shù)≥D中事務(wù)總數(shù)|D|與minsup-port的乘積時(shí),就叫做頻繁項(xiàng)集,當(dāng)項(xiàng)集的支持計(jì)數(shù)可能≥D中事務(wù)總數(shù)|D|與minsupport的乘積時(shí),就叫做侯選項(xiàng)集。所有侯選項(xiàng)集K-項(xiàng)集的集合記作Ck,所有頻繁項(xiàng)集K-項(xiàng)集的集合常記作Lk,很明顯Lk奐Ck。如果僅依賴最小支持度和最小置信度這兩個(gè)參數(shù)的限制,所挖掘出的強(qiáng)關(guān)聯(lián)規(guī)則不一定是用戶感興趣的,因此,用戶可以根據(jù)實(shí)際應(yīng)用的需求,再結(jié)合自身的領(lǐng)域知識(shí),通過(guò)選擇與實(shí)際分析任務(wù)有關(guān)的數(shù)據(jù)集,設(shè)置不同的參數(shù),限定前項(xiàng)和后項(xiàng)的個(gè)數(shù),選擇前項(xiàng)和后項(xiàng)包含的屬性等操作,對(duì)關(guān)聯(lián)規(guī)則的挖掘進(jìn)行約束。

2模糊集理論的引入

在討論實(shí)際問(wèn)題的時(shí)候,需要判定模糊概念涵義,如判斷某個(gè)數(shù)據(jù)在模糊集的定義和歸屬,這時(shí)就需要普通集合與模糊集合可依某種法則相互轉(zhuǎn)換。模糊理論中的截集是模糊集合和普通集合之間相互轉(zhuǎn)換的一座橋梁。

3基于事務(wù)間數(shù)值型關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法

假設(shè)有一就業(yè)數(shù)據(jù)庫(kù),先通過(guò)數(shù)據(jù)整理,將原始數(shù)據(jù)記錄值區(qū)間[0,10]偏置10個(gè)單位。由此就得到了經(jīng)過(guò)偏置后的數(shù)據(jù)庫(kù)記錄。再依滑動(dòng)窗口方法,設(shè)maxspan=1(該值可以依實(shí)際情況的需要來(lái)定),就可將偏置后的數(shù)據(jù)庫(kù)數(shù)據(jù)整理轉(zhuǎn)化為擴(kuò)展事務(wù)數(shù)據(jù)庫(kù)。再把擴(kuò)展事務(wù)數(shù)據(jù)庫(kù)記錄通過(guò)隸屬度函數(shù)轉(zhuǎn)化為對(duì)應(yīng)的隸屬度。

查看全文

數(shù)據(jù)挖掘技術(shù)分析論文

[摘要]本文主要介紹了數(shù)據(jù)挖掘的基本概念,以及數(shù)據(jù)挖掘的方法。

[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無(wú)法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。

二、數(shù)據(jù)挖掘的方法

查看全文

垃圾短信數(shù)據(jù)挖掘論文

1垃圾短信治理面臨的調(diào)整

目前的垃圾短信過(guò)濾的方法主要有黑名單和白名單監(jiān)控技術(shù),但是短信中心對(duì)黑白名單處理數(shù)量有上限要求;基于關(guān)鍵字的過(guò)濾技術(shù),但是這種技術(shù)不能靈活識(shí)別和更新關(guān)鍵字;基于內(nèi)容的過(guò)濾技術(shù),可分為基于規(guī)則的過(guò)濾和基于概率統(tǒng)計(jì)的過(guò)濾;基于數(shù)據(jù)挖掘方法的垃圾短信用戶識(shí)別,目前基本上都使用IBMSPSSModeler平臺(tái)的決策樹(shù)和邏輯回歸經(jīng)典算法識(shí)別垃圾短信用戶,由于選取的建模數(shù)據(jù)不全面以及算法本身各自存在不足使得建模效果受到影響。為建立白名單和科學(xué)封堵模型相結(jié)合的垃圾短信治理模式,實(shí)現(xiàn)精細(xì)化、行為級(jí)、高效性的垃圾短信治理,本方案提出了基于客戶綜合特征分析的垃圾短信治理技術(shù)方案:基于隨機(jī)森林分類的垃圾短信用戶預(yù)測(cè)模型。通過(guò)客戶入網(wǎng)屬性,客戶通信行為信息、客戶賬單信息等多個(gè)維度構(gòu)建模型,對(duì)垃圾短信號(hào)碼進(jìn)行識(shí)別和治理。相比傳統(tǒng)基于短信內(nèi)容識(shí)別、發(fā)送量控制的事中控制,本系統(tǒng)能夠進(jìn)行垃圾短信發(fā)送行為預(yù)測(cè),配合垃圾短信攔截系統(tǒng)將垃圾短信在未形成大規(guī)模發(fā)送前攔截。實(shí)驗(yàn)結(jié)果證明該模型能夠有效的識(shí)別垃圾短信號(hào)碼,對(duì)監(jiān)控系統(tǒng)攔截垃圾短信起到很好的輔助作用。

2大數(shù)據(jù)挖掘的原理與優(yōu)勢(shì)

大數(shù)據(jù)是指數(shù)據(jù)量很大(一般是TB到PB數(shù)量級(jí))的巨量資料,無(wú)法通過(guò)主流軟件工具,在合理時(shí)間內(nèi)完成數(shù)據(jù)處理并獲取有價(jià)值的信息。數(shù)據(jù)大多以非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)為主,大數(shù)據(jù)具有4V特點(diǎn):Volume、Velocity、Variety、Veracity。大數(shù)據(jù)處理的一般思路是數(shù)據(jù)壓縮、數(shù)據(jù)抽樣、數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其它模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、推薦系統(tǒng)等,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。大數(shù)據(jù)挖據(jù)的數(shù)據(jù)源和處理方式對(duì)比。

3數(shù)據(jù)挖據(jù)流程和模型選取

3.1數(shù)據(jù)挖掘的主要流程

查看全文

針灸治療數(shù)據(jù)挖掘論文

1數(shù)據(jù)挖掘技術(shù)在針灸研究中的應(yīng)用

1.1經(jīng)穴效應(yīng)特異性規(guī)律研究

主要采用關(guān)聯(lián)規(guī)則與頻次分析相結(jié)合的數(shù)據(jù)挖掘方法,關(guān)聯(lián)規(guī)則旨在提示處方中存在的兩個(gè)或兩個(gè)以上腧穴之間的配伍形式,頻次分析能夠提供針灸治療某一疾病選用的腧穴及其頻繁程度。羅玲等在全面采集古代針灸治療中風(fēng)文獻(xiàn)基礎(chǔ)上,重點(diǎn)進(jìn)行了選穴的經(jīng)絡(luò)癥狀關(guān)聯(lián)分析,發(fā)現(xiàn)針刺治療中風(fēng)半身不遂使用腧穴頻次最多的為曲池、肩等手陽(yáng)明經(jīng)穴;肩、曲池、足三里、百會(huì)、風(fēng)池配伍是最常用處方;多選用足少陽(yáng)經(jīng)和手足陽(yáng)明經(jīng)穴位。針刺治療中風(fēng)不省人事使用腧穴頻次最多的為督脈百會(huì)穴、心包經(jīng)中沖穴;風(fēng)池、百會(huì)、曲池配伍或大椎、百會(huì)、風(fēng)池配伍是最常用處方;經(jīng)脈多選用督脈和足少陽(yáng)、手陽(yáng)明等陽(yáng)經(jīng)穴位。以上表明針灸治療中風(fēng)遵循了辨證循經(jīng)取穴的處方規(guī)律。何冬鳳等在全面采集現(xiàn)代針灸治療心絞痛臨床文獻(xiàn)基礎(chǔ)上,重點(diǎn)進(jìn)行了選穴的經(jīng)絡(luò)部位關(guān)聯(lián)分析。結(jié)果發(fā)現(xiàn),心絞痛選穴分布在心包經(jīng)、膀胱經(jīng)、任脈、心經(jīng)最多;選穴主要分布在上肢部、背部、胸部,上肢部用穴中近90%分布于心包經(jīng)和心經(jīng),背部用穴近95%分布于膀胱經(jīng),胸部用穴全分布于任脈和心經(jīng)。以上表明針灸治療心絞痛遵循了辨位循經(jīng)取穴的處方規(guī)律。數(shù)據(jù)挖掘結(jié)果證實(shí)了古代、現(xiàn)代取穴規(guī)律和特點(diǎn)與針灸臨床理論的一般規(guī)律和特點(diǎn)是基本相符的。經(jīng)絡(luò)辨證提示了經(jīng)穴效應(yīng)的循經(jīng)性,特定穴的選用提示了經(jīng)氣會(huì)聚狀態(tài)是腧穴發(fā)揮效應(yīng)特異性的關(guān)鍵。

1.2腧穴運(yùn)用規(guī)律的研究

1)神經(jīng)系統(tǒng)疾病:趙凌等收錄了從先秦至清末的偏頭痛針灸專著,采用多層關(guān)聯(lián)規(guī)則挖掘算法,計(jì)算腧穴項(xiàng)集的支持度和置信度,發(fā)現(xiàn)手足少陽(yáng)經(jīng)脈的穴位絲竹空、風(fēng)池、率谷、頷厭、頭臨泣出現(xiàn)頻次最高,偏頭痛處方配伍中以合谷一風(fēng)池出現(xiàn)的頻次最高,少陽(yáng)經(jīng)的交會(huì)穴選用最多。楊潔等發(fā)現(xiàn)針灸治療貝爾面癱中,手足陽(yáng)明經(jīng)穴選用最多,重視局部穴位,配合遠(yuǎn)端選穴,地倉(cāng)穴為使用頻次最多經(jīng)穴,交會(huì)穴、五輸穴、下合穴等特定穴運(yùn)用廣泛。吳糧葶等挖掘針灸治療中風(fēng)后遺癥的現(xiàn)代文獻(xiàn),表明針灸治療中風(fēng)后遺癥選穴以循經(jīng)為基礎(chǔ),首選陽(yáng)經(jīng)腧穴,分布主要在四肢,陽(yáng)明經(jīng)與少陽(yáng)經(jīng)的配伍關(guān)系最為常用,特定穴為選穴的主體,特別重視交會(huì)穴及肘膝關(guān)節(jié)以下的特定穴。李旗等挖掘出針刺治療格林巴利綜合征所選腧穴以足三里、合谷、曲池、陽(yáng)陵泉、外關(guān)、三陰交使用頻率最高,經(jīng)絡(luò)則以手足陽(yáng)明經(jīng)最為常用。CongMen等以不同針刺手法刺激小鼠足三里,構(gòu)筑神經(jīng)元混沌放電的復(fù)雜網(wǎng)絡(luò)來(lái)刻畫(huà)神經(jīng)元放電時(shí)間序列的時(shí)變特性。

2)消化系統(tǒng)疾?。喝斡裉m等通過(guò)多維、多層的關(guān)聯(lián)規(guī)則分析針刺治療功能性消化不良的古文獻(xiàn),發(fā)現(xiàn)足三里、中脘、脾俞、胃俞、內(nèi)關(guān)是治療FD最常用的主要腧穴,足三里與中脘相配是最主要穴位組配方式;取穴以循經(jīng)為基礎(chǔ),主要集中在任脈、膀胱經(jīng)、脾胃經(jīng)上;所選腧穴以特定穴為主體,遵循局部與遠(yuǎn)端取穴相結(jié)合原則。張勇等以古文獻(xiàn)中治療鼓脹的經(jīng)穴為原始數(shù)據(jù),運(yùn)用頻數(shù)統(tǒng)計(jì)及關(guān)聯(lián)規(guī)則算法,統(tǒng)計(jì)出古代治療鼓脹最常用經(jīng)穴為足三里、水分、氣海等,通過(guò)2次priori關(guān)聯(lián)結(jié)果,最終確認(rèn)組穴1(復(fù)溜,中風(fēng))和組穴2(復(fù)溜,脾俞)在臨床應(yīng)用中具有強(qiáng)關(guān)聯(lián)性。鄭華斌等發(fā)現(xiàn)在治療腸易激綜合征中,特定穴的使用廣泛,其中以足三里為最,其次為天樞、上巨虛、中脘等,臟腑辨證取穴為針刺治療腸易激綜合征的重要原則,以足陽(yáng)明胃經(jīng)的足三里和天樞為主。

查看全文

移動(dòng)通信數(shù)據(jù)挖掘論文

摘要:我國(guó)移動(dòng)網(wǎng)絡(luò)信息技術(shù)發(fā)展較快處于世界前沿,但由于其復(fù)雜的內(nèi)容與龐大的數(shù)據(jù)量,在使用過(guò)程中難免發(fā)生一定的錯(cuò)誤與不足。因此,移動(dòng)通信商對(duì)其必須做出調(diào)整優(yōu)化工作,以期帶來(lái)更好的服務(wù)。數(shù)據(jù)挖掘技術(shù)就是幫助移動(dòng)通信商調(diào)整4G網(wǎng)絡(luò)使用的重要技術(shù)方法。通過(guò)本文的分析,希望對(duì)我國(guó)網(wǎng)絡(luò)供應(yīng)商給予幫助,使其優(yōu)化我國(guó)的移動(dòng)通信網(wǎng)絡(luò)。

關(guān)鍵詞:4G環(huán)境;移動(dòng)通信;網(wǎng)絡(luò)優(yōu)化;數(shù)據(jù)挖掘

隨著我國(guó)的移動(dòng)信息力量不斷發(fā)展,目前社會(huì)已進(jìn)入了4G的通訊時(shí)代。4G環(huán)境下,移動(dòng)通信網(wǎng)絡(luò)實(shí)現(xiàn)了實(shí)時(shí)的更新與擴(kuò)大,同時(shí)人們對(duì)于移動(dòng)網(wǎng)絡(luò)的使用要求也越來(lái)越高。如果不及時(shí)對(duì)移動(dòng)通信網(wǎng)絡(luò)進(jìn)行更新優(yōu)化,4G網(wǎng)絡(luò)將無(wú)法發(fā)揮力量,進(jìn)一步為社會(huì)與人們服務(wù)。因此,為深化4G網(wǎng)絡(luò)的使用,必須對(duì)其數(shù)據(jù)進(jìn)行深度挖掘與分析,從而找尋更好使其為人們服務(wù)的途徑與方法。

1關(guān)于數(shù)據(jù)挖掘技術(shù)的問(wèn)題分析

1.1數(shù)據(jù)挖掘的概念。數(shù)據(jù)挖掘技術(shù)是目前我國(guó)一類新興的互聯(lián)網(wǎng)科技技術(shù),其運(yùn)用基于目前的大數(shù)據(jù)時(shí)代形勢(shì)下。數(shù)據(jù)挖掘的實(shí)質(zhì)是對(duì)巨大的信息量,通過(guò)后臺(tái)的整合處理,找尋具有一定規(guī)律的數(shù)據(jù)并對(duì)其深入分析,找尋各組數(shù)據(jù)之間的聯(lián)系,對(duì)后續(xù)可能潛在產(chǎn)生的數(shù)據(jù)進(jìn)行預(yù)測(cè)。因此,數(shù)據(jù)挖掘在目前信息量龐大的現(xiàn)代網(wǎng)絡(luò)社會(huì)而言,具有找尋各組數(shù)據(jù)的關(guān)聯(lián)性,發(fā)現(xiàn)人們潛在需求的重要作用,是進(jìn)一步優(yōu)化4G網(wǎng)絡(luò)通訊與使用的重要依據(jù)。1.2數(shù)據(jù)挖掘的分析方法。數(shù)據(jù)挖掘的方法較多,通常情況下使用以下三類方法進(jìn)行具體的挖掘工作。首先,分類分析法是最常用的一類數(shù)據(jù)挖掘方法。該方法需要技術(shù)人員對(duì)所有的數(shù)據(jù)進(jìn)行初步篩選,并依據(jù)其特點(diǎn)做好標(biāo)記的工作。在第一次篩選工作完成后,對(duì)其進(jìn)行先前以標(biāo)記分類的數(shù)據(jù)進(jìn)行二次篩選,根據(jù)其特點(diǎn)再一次篩選。重復(fù)篩選的工作直至得到符合技術(shù)人員需求的規(guī)模后,在對(duì)其同類型的數(shù)據(jù)進(jìn)行定點(diǎn)分析,找尋其規(guī)律后根據(jù)其特性對(duì)4G網(wǎng)絡(luò)進(jìn)行優(yōu)化工作。其次,通常使用關(guān)聯(lián)分析法進(jìn)行數(shù)據(jù)挖掘的工作。所謂關(guān)聯(lián)分析法,是指對(duì)人們使用4G網(wǎng)絡(luò)的情況排查,分析其使用某數(shù)據(jù)時(shí)與其關(guān)聯(lián)的數(shù)據(jù),找尋二者的規(guī)律與相似處,并以此為依據(jù)對(duì)4G網(wǎng)絡(luò)的使用進(jìn)行進(jìn)一步優(yōu)化調(diào)整。關(guān)聯(lián)分析法的優(yōu)勢(shì)是更貼合人們的需求,能夠基于人性化的基礎(chǔ)上對(duì)4G網(wǎng)絡(luò)進(jìn)行調(diào)整。最后,序列分析法也是常用的數(shù)據(jù)挖掘方法。其原理類似于分類分析法,但其采用的方法是先由技術(shù)人員對(duì)所有需要分析的數(shù)據(jù)進(jìn)行采集編號(hào),然后由計(jì)算機(jī)對(duì)其數(shù)據(jù)根據(jù)序列的不同進(jìn)行分析工作。相較于分類分析法,盡管其人性化程度較低,但其分析的速度是常用的數(shù)據(jù)分析法中速度最快的。因此,技術(shù)人員同時(shí)使用序列分析法對(duì)數(shù)據(jù)進(jìn)行第一次篩選與分析的工作后,根據(jù)情況具體使用分類分析法或關(guān)聯(lián)分析法進(jìn)行具體的篩選工作。

24G移動(dòng)通信網(wǎng)絡(luò)的特點(diǎn)分析

查看全文