機(jī)器學(xué)習(xí)范文
時間:2023-04-10 03:56:12
導(dǎo)語:如何才能寫好一篇機(jī)器學(xué)習(xí),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:機(jī)器學(xué)習(xí);數(shù)據(jù)挖掘;算法
中圖分類號:TP182 文獻(xiàn)識別碼:A 文章編號:1001-828X(2017)013-0-01
一、機(jī)器學(xué)習(xí)的應(yīng)用
機(jī)器學(xué)習(xí)的方法可以應(yīng)用到許多領(lǐng)域中,包括研究,科技、商業(yè)領(lǐng)域等,這些領(lǐng)域的機(jī)器學(xué)習(xí)運用越來越成熟和高效。研究中運用機(jī)器學(xué)習(xí)發(fā)現(xiàn)人類不容易發(fā)現(xiàn)的規(guī)律;科技中運用機(jī)器學(xué)習(xí)提高了科技解決實際生活的能力;商業(yè)領(lǐng)域運用機(jī)器學(xué)習(xí)更好的挖掘客戶和滿足客戶。除此之外,機(jī)器學(xué)習(xí)也為其他領(lǐng)域帶來不小的突破。機(jī)器學(xué)習(xí)集中解決兩個問題:其一,如何讓電腦系統(tǒng)利用經(jīng)驗數(shù)據(jù)提高我們工作效率。其二,如何有效率地提高機(jī)器學(xué)習(xí)算法的準(zhǔn)確率。機(jī)器學(xué)習(xí)對于解決科學(xué)和工程中的問題和在各種生活領(lǐng)域的實踐問題是重要的。
二、機(jī)器學(xué)習(xí)的發(fā)展
過去的二十年機(jī)器學(xué)習(xí)的發(fā)展取得了極大的進(jìn)步。走出了驗室,走向了包括商業(yè)領(lǐng)域的廣泛運用。在人工智能(AI)中,機(jī)器學(xué)習(xí)被作為一種重要的方法應(yīng)用到電腦可視化,語音識別,自然語言處理,機(jī)器人控制和其他應(yīng)用中。許多人工智能的開發(fā)者開始認(rèn)識到,對于許多應(yīng)用場景,訓(xùn)練一個系統(tǒng)去出示輸入輸出的結(jié)果,比人工分析內(nèi)在機(jī)理更容易。機(jī)器學(xué)習(xí)的準(zhǔn)確性在很多應(yīng)用中比人類自己的分析結(jié)果要高得多。機(jī)器學(xué)習(xí)的影響已經(jīng)廣泛傳播到運用計算機(jī)和數(shù)據(jù)庫的行業(yè)里,例如,顧客服務(wù),醫(yī)療診斷系統(tǒng),資源分配。在以經(jīng)驗為主的學(xué)科,像歷史學(xué),醫(yī)學(xué)到人文學(xué)科,機(jī)器學(xué)習(xí)也有其用武之地。學(xué)習(xí)問題可能被定義為當(dāng)執(zhí)行某些任務(wù)時,通過不斷的訓(xùn)練提高解決能力[1]。例如,在學(xué)習(xí)偵察信用卡詐騙時,我們需要給所有的信用卡交易貼上一個是不是詐騙的標(biāo)簽。測量表現(xiàn)將會由于這個詐騙鑒別分類器被提高,而它的訓(xùn)練是由以前的一系列詐騙案例所構(gòu)成。
三、機(jī)器學(xué)習(xí)的模型與算法
在不同的現(xiàn)實問題中機(jī)器學(xué)習(xí)算法也依據(jù)數(shù)據(jù)與模型的不同有了很大的差別。概念上機(jī)器學(xué)習(xí)算法被視為在一堆候選算法中選取一種對原始表現(xiàn)擬合最好的程序。機(jī)器學(xué)習(xí)算法的結(jié)論好壞差別非常大,很大程度上因為所用到的數(shù)據(jù)和模型的差別。這里的數(shù)據(jù)集分為訓(xùn)練集和測試集。它努力從不同的程序中收集最好的算法。許多方法集中在函數(shù)取值問題,它們集中研究函數(shù)。給定一個輸入,就有一個輸出。學(xué)習(xí)問題就是如何找出一個更精確的函數(shù)。通常函數(shù)以參數(shù)化的形式呈現(xiàn),而在另一些情況下,函數(shù)具體形式不太清楚,它是由一個搜索過程、一個因子分解、一個極大化過程、一個仿真過程等構(gòu)成。即使函數(shù)形式不太清楚,其一般都依賴于參數(shù)與自由度,訓(xùn)練找到這些參數(shù)的過程往往使得表現(xiàn)測度最優(yōu)化[2]。
下面是機(jī)器學(xué)習(xí)主流的各種算法, 算法是機(jī)器學(xué)習(xí)的核心,要了解不同算法的難點所在,更要了解不同算法的優(yōu)勢以及應(yīng)用場合。算法離不開對于數(shù)學(xué)基礎(chǔ),也與統(tǒng)計學(xué)的建模有關(guān)系;由于算法的計算難度比較大,更與計算機(jī)的計算性能有關(guān),所以算法研究顯得非常重要但也比較困難。算法可以說是機(jī)器學(xué)習(xí)的內(nèi)核,一種好算法的提出,對于機(jī)器學(xué)習(xí)是劃時代的貢獻(xiàn)。
四、機(jī)器學(xué)習(xí)的商業(yè)重要性
這個時代是一個互聯(lián)網(wǎng)信息爆炸的時代,隨著網(wǎng)絡(luò)的迅速發(fā)展和普及,使得信息量極大豐富,由于我們獲得海量數(shù)據(jù)的便捷性,我們可以利用的數(shù)據(jù)進(jìn)行分析變得越來越容易,收集的信息門類五花八門。對于各個行業(yè),還能收集與行業(yè)、競爭對手、客戶和市場有關(guān)的信息,能夠很好的分析和處理那些對企業(yè)有重大價值的信息成為未來企業(yè)脫穎而出的關(guān)鍵。根據(jù)分析結(jié)果找出企業(yè)面臨的問題和漏洞,更好的管理企業(yè),讓企業(yè)取得生存發(fā)展空間。
可見數(shù)據(jù)挖掘?qū)τ谄髽I(yè)的重要性,未來從事機(jī)器學(xué)習(xí)相關(guān)崗位的人員將會越來越多,數(shù)據(jù)挖據(jù)不僅在一些大的公司有重要的作用,在小企業(yè)里也是不可或缺的。數(shù)據(jù)在公司經(jīng)營中提供了非常有價值的商業(yè)信息,數(shù)據(jù)中蘊含了巨大的商業(yè)潛力。數(shù)據(jù)像一個盒子。不是我們隨便看看的就能得到指導(dǎo)性的意見。大數(shù)據(jù)時代的到來尤其為管理者既帶來了機(jī)會,又增加了困難。因為他們要面對的是更加龐雜的數(shù)據(jù)系統(tǒng),從中找出他們需要的具體規(guī)律,這本身不是一件容易的事。所以以后機(jī)器學(xué)習(xí)會越來越走向我們的企業(yè),為企業(yè)帶來價值。
參考文獻(xiàn):
[1]M.I.Jordan1 and T.M.Mitchell2.MachineL earning: Treads, perspective, prospects ,science,2015.
篇2
關(guān)鍵詞: 機(jī)器學(xué)習(xí) 人工智能 基本模型
1.引言
“機(jī)器學(xué)習(xí)”是人工智能的重要研究領(lǐng)域之一。機(jī)器學(xué)習(xí)的定義是“系統(tǒng)通過積累經(jīng)驗而改善系統(tǒng)自身的性能”。通俗地說,就是讓機(jī)器去學(xué)習(xí),利用學(xué)到的知識來指導(dǎo)下一步的判斷。最初研究機(jī)器學(xué)習(xí),是讓計算機(jī)具有學(xué)習(xí)的能力,以實現(xiàn)智能化。因為人們認(rèn)為具有人工智能的系統(tǒng)首先必須具有學(xué)習(xí)能力。機(jī)器學(xué)習(xí)的研究始于神經(jīng)元模型研究,此后又經(jīng)歷了符號概念獲取、知識強(qiáng)化學(xué)習(xí)研究階段,至今已發(fā)展到連接學(xué)習(xí)和混合型學(xué)習(xí)研究階段。
2.機(jī)器學(xué)習(xí)系統(tǒng)的基本模型
根據(jù)機(jī)器學(xué)習(xí)的定義,建立如圖1所示的機(jī)器學(xué)習(xí)基本模型。
模型中包含學(xué)習(xí)系統(tǒng)的四個基本組成環(huán)節(jié)。
環(huán)境和知識庫是以某種知識表示形式表達(dá)的信息的集合,分別代表外界信息來源和系統(tǒng)具有的知識。學(xué)習(xí)環(huán)節(jié)和執(zhí)行環(huán)節(jié)代表兩個過程。學(xué)習(xí)環(huán)節(jié)處理環(huán)境提供的信息,以便改善知識庫中的知識。執(zhí)行環(huán)節(jié)是整個機(jī)器學(xué)習(xí)系統(tǒng)的核心。利用知識庫中的知識來完成某種任務(wù),并把執(zhí)行中獲得的信息送還給學(xué)習(xí)環(huán)節(jié)。
2.1機(jī)器學(xué)習(xí)的分類
很多學(xué)者從不同的角度對機(jī)器學(xué)習(xí)進(jìn)行了分類,這里簡單闡述一下繼續(xù)學(xué)習(xí)策略的機(jī)器學(xué)習(xí)的種類。按照學(xué)習(xí)策略的不同,機(jī)器學(xué)習(xí)分為機(jī)械學(xué)習(xí)、歸納學(xué)習(xí)、基于解釋的學(xué)習(xí)、基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和基于遺傳算法的學(xué)習(xí)。
2.1.1機(jī)械學(xué)習(xí)
機(jī)械學(xué)習(xí)(Rote Learning)就是“死記硬背式的學(xué)習(xí)”,靠記憶存儲知識,需要時檢索已經(jīng)存下來的知識使用,不需要計算和推理。機(jī)械學(xué)習(xí)的模式如下:需要解決的問題為{y,y,...,yn},輸入已知信息{x,x,...x}后,解決了該問題,于是將記錄對{{x,x,...,x},{y,y,...,y}}存入數(shù)據(jù)庫,以后當(dāng)遇到問{y,y,...,y}時,檢索數(shù)據(jù)庫,即可得到問題{y,y,...,y}的解答是{x,x,...,x}。
能實現(xiàn)機(jī)械式學(xué)習(xí)算法的系統(tǒng)只需具備兩種基本技能:記憶與檢索。此外,存儲的合理安排,信息的合理結(jié)合,以及檢索最優(yōu)方向的控制也是系統(tǒng)應(yīng)該考慮的問題。該算法簡單、容易實現(xiàn)、計算快速,但是由于系統(tǒng)不具備歸納推理的功能,對每個不同的問題,即使是類似的問題,也需要知識庫中有不同的記錄。因此占用大量的存儲空間,這是典型的以空間換時間的算法。
2.1.2歸納學(xué)習(xí)
歸納學(xué)習(xí)是應(yīng)用歸納推理進(jìn)行學(xué)習(xí)的一種方法。歸納學(xué)習(xí)的過程是由特殊實例推導(dǎo)出一般情況的過程,這樣就使類似的問題可以利用同樣的方法求解。歸納學(xué)習(xí)的過程就是示例空間與規(guī)則空間的相互利用與反饋。1974年,Simon和Lea提出了雙空間模型,形象地對這一執(zhí)行過程進(jìn)行了描述,如圖2所示。
歸納學(xué)習(xí)算法簡單,節(jié)省存儲空間,在一段時間內(nèi)得到了廣泛的應(yīng)用。在應(yīng)用過程中,該算法逐漸顯現(xiàn)出它的缺點:(1)歸納結(jié)論是通過對大量的實例分析得出的,這就要求結(jié)論的得出要有大量實例作支撐,而這在許多領(lǐng)域都是無法滿足的。(2)歸納結(jié)論是由不完全訓(xùn)練集得出的,因而其正確性無法保證,只能使結(jié)論以一定概率成立。(3)該算法通過對實例的分析與對比得出結(jié)論,對于信息的重要性與相關(guān)關(guān)系無法辨別。
2.1.3基于解釋的學(xué)習(xí)
基于解釋的學(xué)習(xí)(Explanation-Based Learning)是運用已知相關(guān)領(lǐng)域的知識及訓(xùn)練實例,對某個目標(biāo)概念進(jìn)行學(xué)習(xí),并通過后繼的不斷練習(xí),得到目標(biāo)概念的一般化描述。該學(xué)習(xí)的執(zhí)行過程如圖3所示。
這種方式的學(xué)習(xí)得到一個領(lǐng)域完善的知識往往是比較困難的,這就對該算法提出了更高的要求。為解決知識不完善領(lǐng)域的問題,有以下兩個研究方向[2]:(1)改進(jìn)該算法使其在不完善的領(lǐng)域理論中依然有效。(2)擴(kuò)充該領(lǐng)域的知識使其擁有更強(qiáng)的解釋能力。通常情況下,第二種改進(jìn)方法更重要些。
2.1.4基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)
神經(jīng)網(wǎng)絡(luò)是由許多類似神經(jīng)元的節(jié)點和它們之間帶權(quán)的連接組成的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),是為模仿人類大腦的復(fù)雜神經(jīng)結(jié)構(gòu)而建立起來的抽象數(shù)據(jù)模型,希望相似的拓?fù)浣Y(jié)構(gòu)可以使機(jī)器像人腦一樣進(jìn)行數(shù)據(jù)的分析、存儲與使用。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的過程就是不斷修正連接權(quán)的過程。在網(wǎng)絡(luò)的使用過程中,對于特定的輸入模式,神經(jīng)網(wǎng)絡(luò)通過前向計算,產(chǎn)生一個輸出模式,并得到節(jié)點代表的邏輯概念,通過對輸出信號的比較與分析可以得到特定解。在整個過程中,神經(jīng)元之間具有一定的冗余性,且允許輸入模式偏離學(xué)習(xí)樣本,因此神經(jīng)網(wǎng)絡(luò)的計算行為具有良好的并行分布、容錯和抗噪能力。
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法是一種仿真算法,擁有良好的認(rèn)識模擬能力和有高度的并行分布式處理能力。但神經(jīng)網(wǎng)絡(luò)模型及其參數(shù)設(shè)置難以確定,需要長時間的試驗摸索過程。并且,對于最后得到的神經(jīng)網(wǎng)絡(luò),其反映的知識往往難以讓人理解。為解決這些問題,構(gòu)造神經(jīng)網(wǎng)絡(luò)集成并從神經(jīng)網(wǎng)絡(luò)或神經(jīng)網(wǎng)絡(luò)集成中抽取規(guī)則成為當(dāng)前研究的熱點。
2.1.5基于遺傳算法的學(xué)習(xí)
遺傳算法以自然進(jìn)化和遺傳學(xué)為基礎(chǔ),通過模擬自然界中生物的繁殖與進(jìn)化過程,使訓(xùn)練結(jié)果逐漸優(yōu)化。與遺傳過程類似,在學(xué)習(xí)過程中,通過選擇最好結(jié)果并使其組合產(chǎn)生下一代,使“優(yōu)秀的遺傳因子”逐代積累,最后得到最優(yōu)的解。遺傳算法解決了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的一個缺點,它不需要知道原始信息而只需知道學(xué)習(xí)的目的即可進(jìn)行,具有很強(qiáng)的并行計算能力和適應(yīng)能力。此外,遺傳算法采取的隨機(jī)搜索方法提高了該學(xué)習(xí)算法對全局搜索的能力。遺傳算法的缺點主要體現(xiàn)在三個方面:無法確定最終解的全局最優(yōu)性;無法控制遺傳過程中變異的方向;無法有效地確定進(jìn)化終止條件。基于這三個缺點,有人提出了遺傳算法與其他學(xué)習(xí)算法的結(jié)合,優(yōu)點互補已達(dá)到更好的效果。
3.結(jié)語
機(jī)器學(xué)習(xí)在過去十幾年中取得了飛速的發(fā)展,目前已經(jīng)成為子領(lǐng)域眾多、內(nèi)涵非常豐富的學(xué)科領(lǐng)域?!案唷⒏玫亟鉀Q實際問題”成為機(jī)器學(xué)習(xí)發(fā)展的驅(qū)動力。事實上,過去若干年中出現(xiàn)的很多新的研究方向,例如半監(jiān)督學(xué)習(xí)、代價敏感學(xué)習(xí)等,都起源于實際應(yīng)用中抽象出來的問題,而機(jī)器學(xué)習(xí)的研究進(jìn)展,也很快就在眾多應(yīng)用領(lǐng)域中發(fā)揮作用。機(jī)器學(xué)習(xí)正在逐漸成為基礎(chǔ)性、透明化、無處不在的支持技術(shù)、服務(wù)技術(shù)。
參考文獻(xiàn):
[1]周志華.機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘[J].
篇3
機(jī)器學(xué)習(xí)作為人工智能的核心內(nèi)容而存在。簡單來講就是在模擬人類行為的基礎(chǔ)上,通過學(xué)習(xí)來使計算機(jī)獲得更多的新技能、新知識,變得更加聰明更加智能,以此來實現(xiàn)其組織結(jié)構(gòu)性能上的不斷優(yōu)化。而機(jī)器學(xué)習(xí)作為一項極為智能化的過程,具體該如何實現(xiàn)屬于機(jī)器的特有“學(xué)習(xí)”行為呢?關(guān)于這一點,不同專業(yè)學(xué)者基于自身專業(yè)研究內(nèi)容的不同,因此眾說紛紜,但總結(jié)來講,機(jī)器學(xué)習(xí)與推理過程之間的緊密關(guān)系還是得到了大多數(shù)學(xué)者的一致認(rèn)同,因此,我們可以將機(jī)器學(xué)習(xí)策略分為事例學(xué)習(xí)、類比學(xué)習(xí)、傳授學(xué)習(xí)、機(jī)械學(xué)習(xí)?;谟嬎銠C(jī)功能的復(fù)雜性,機(jī)器學(xué)習(xí)涉及范圍較廣,是在多種知識、技術(shù)的交叉和共同作用下的結(jié)果,如,概率論、凸分析、統(tǒng)計學(xué)、算法復(fù)雜度理論、逼近論等多專業(yè)學(xué)科都涉及其中。就機(jī)器學(xué)習(xí)的分類來講我們可以將其分為以下幾種:(1)基于學(xué)習(xí)策略分類——機(jī)械學(xué)習(xí)、示教學(xué)習(xí)、演繹學(xué)習(xí)、類比學(xué)習(xí)、基于解釋的學(xué)習(xí)、歸納學(xué)習(xí);(2)基于所獲取知識的表示形式分類——代數(shù)表達(dá)式參數(shù)、決策樹、形式文法、產(chǎn)生式規(guī)則、形式邏輯表達(dá)式、圖和網(wǎng)絡(luò)、框架和模式、計算機(jī)程序和其它的過程編碼、神經(jīng)網(wǎng)絡(luò)、多種表示形式的組合;(3)按應(yīng)用領(lǐng)域分類——自然語言、圖像識別、認(rèn)知模擬、故障診斷、數(shù)據(jù)挖掘、專家系統(tǒng)、規(guī)劃和問題求解、網(wǎng)絡(luò)信息服務(wù)等領(lǐng)域;(4)綜合分類——經(jīng)驗性歸納學(xué)習(xí)、分析學(xué)習(xí)、類比學(xué)習(xí)、遺傳算法、連接學(xué)習(xí)、增強(qiáng)學(xué)習(xí);(5)學(xué)習(xí)形式分類——監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)。
2機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全中應(yīng)用的意義
從機(jī)器學(xué)習(xí)的本質(zhì)上來講,它是在大數(shù)據(jù)集中的基礎(chǔ)上通過對數(shù)學(xué)技術(shù)的引入,來構(gòu)建機(jī)器行為模型,并通過不斷輸入新的數(shù)據(jù)資料,使機(jī)器在對各時段數(shù)據(jù)進(jìn)行分析、運算的基礎(chǔ)上,來實現(xiàn)對未來的科學(xué)預(yù)測。就機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全中應(yīng)用的意義來講,主要體現(xiàn)在,機(jī)器學(xué)習(xí)基于自身極強(qiáng)的數(shù)據(jù)分析能力,在應(yīng)用的過程中,可以幫助用戶來有效的對網(wǎng)絡(luò)安全事件作出及時的響應(yīng),尤其是在團(tuán)隊安全技能不足的情況下,可以通過自動執(zhí)行來替代團(tuán)隊執(zhí)行一些瑣碎的系統(tǒng)安全任務(wù),有助于切實保障用戶的網(wǎng)絡(luò)安全。同時機(jī)器學(xué)習(xí)與傳統(tǒng)電子科技產(chǎn)品的融合,有助于清除產(chǎn)品中的惡意軟件,進(jìn)而達(dá)到提升產(chǎn)品安全系數(shù)和運行穩(wěn)定性的目的。
3機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全中的應(yīng)用
3.1安全入侵檢測
網(wǎng)絡(luò)安全入侵檢測是一種較早出現(xiàn)的計算機(jī)系統(tǒng)自我安全防護(hù)技術(shù),其在不對網(wǎng)絡(luò)性能以及用戶的計算機(jī)操作構(gòu)成影響的情況下,通過對網(wǎng)絡(luò)運行數(shù)據(jù)、安全日志等信息的分析和檢測,來判斷系統(tǒng)是否受到了安全威脅,以此來實現(xiàn)對計算機(jī)系統(tǒng)的實時保護(hù)。機(jī)器學(xué)習(xí)憑借自身性能的智能化,在安全入侵檢測中的應(yīng)用,能夠有效提升網(wǎng)絡(luò)安全入侵檢測反應(yīng)靈敏度,使防護(hù)系統(tǒng)可以在短短的幾秒鐘內(nèi),就準(zhǔn)確的檢測到惡意攻擊位置,并予及時的進(jìn)行準(zhǔn)確、有效的防護(hù),將惡意攻擊對系統(tǒng)的傷害降到最低。
3.2垃圾郵件檢測
機(jī)器學(xué)習(xí)在垃圾郵件檢測中的應(yīng)用,根據(jù)其特殊的運行原理,我們可以將其看作是機(jī)器學(xué)習(xí)當(dāng)中的分類問題。如,我們將郵件整體定義在{-1,1}之間,1就代表是垃圾郵件,而-1則說明是非垃圾郵件。而在對垃圾郵件進(jìn)行文本分類問題定義的過程中,我們首先就需要通過一定的數(shù)值來對垃圾郵件的文本信息予以表達(dá),并用向量來對各條消息進(jìn)行表示,垃圾郵件的特征值則集中表現(xiàn)在各特征向量元素當(dāng)中。同時,由于系統(tǒng)對于垃圾郵件的檢測屬于在線應(yīng)用范疇,因此,機(jī)器學(xué)習(xí)對于郵件的自動識別和分類能夠極大的提升系統(tǒng)對于垃圾郵件的檢測效率,降低出錯率。
3.3域名檢測
作為互聯(lián)網(wǎng)重要的核心應(yīng)用系統(tǒng),域名系統(tǒng)基于自身對整個網(wǎng)絡(luò)安全所起到的重要意義,經(jīng)常成為被黑客和不法分子惡意攻擊的目標(biāo)。以往我們多通過防火墻、黑名單攔截、域名系統(tǒng)等的作用下,來實現(xiàn)對域名惡意攻擊的檢測。以機(jī)器學(xué)習(xí)為主的域名檢測則通常是在在線模型、離線模型的雙重組合作用下,來實現(xiàn)其域名檢測和防御功能。其中,離線模型,通過對惡意域名、合法域名訓(xùn)練數(shù)據(jù)集的建立,來從中提取出基于區(qū)域的特征、基于DNS應(yīng)答的特征、基于域名信息的特征等,之后通過X-Means聚類算法、決策樹等模型的構(gòu)建,結(jié)合網(wǎng)站提供的已知域名數(shù)據(jù)集來對所構(gòu)建的模型予以進(jìn)一步的調(diào)整和驗證。以此來判斷其是否屬于惡意域名。在線監(jiān)測模型,是在網(wǎng)絡(luò)系統(tǒng)對域名的自動查詢分析作用下,來對被檢測域名的主要特征、信息等進(jìn)行獲取,其特征顯示已標(biāo)記的則視為已知域名信息,進(jìn)行繼續(xù)訓(xùn)練操作,特征顯示無標(biāo)簽的則視為未知域名,需要在分類器的作用下,對其是否屬于惡意域名進(jìn)行繼續(xù)判斷。
參考文獻(xiàn)
[1]張蕾,崔勇,劉靜,江勇,吳建平.機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)空間安全研究中的應(yīng)用[J/OL].計算機(jī)學(xué)報,2018:1-35.
篇4
[關(guān)鍵詞]機(jī)器學(xué)習(xí) 服務(wù)器調(diào)優(yōu) 線程池
[中圖分類號]TP181 [文獻(xiàn)標(biāo)識碼]A [文章編號]1009-5349(2016)02-0133-01
一、線程池調(diào)優(yōu)系統(tǒng)總體設(shè)計
線程池調(diào)優(yōu)系統(tǒng)由四個模塊組成:線程池模塊、性能監(jiān)測模塊、支持向量機(jī)調(diào)優(yōu)模塊。線程池模塊負(fù)責(zé)線程池的創(chuàng)建與維護(hù),任務(wù)隊列的任務(wù)管理等,并將任務(wù)隊列中的用戶任務(wù)取出放入線程池中進(jìn)行執(zhí)行。性能監(jiān)測模塊負(fù)責(zé)對表征線程池性能的三個特征量吞吐量、任務(wù)運算時間和任務(wù)阻塞時間的監(jiān)測,作為測試樣本輸入支持向量機(jī)調(diào)優(yōu)模塊中。支持向量機(jī)調(diào)優(yōu)模塊則通過性能監(jiān)測模塊提供的測試樣本,得到所需的最佳線程池尺寸,并與當(dāng)前的線程池尺寸進(jìn)行對比,最后調(diào)整線程池尺寸到最佳。
二、線程池模塊
線程池模塊主要負(fù)責(zé)線程池內(nèi)線程的創(chuàng)建、銷毀、構(gòu)造任務(wù)隊列,并將任務(wù)隊列中的用戶任務(wù)取入線程池中分配空閑線程來執(zhí)行。系統(tǒng)采用Win32的提供的線程庫,以面向?qū)ο笏枷雽崿F(xiàn)相關(guān)功能模塊。線程池模塊主要包括線程池類CPoolThread、任務(wù)隊列類CJobDequeue、線程類CThread以及同步類CMutex。
線程類CThread最重要的一個方法是線程的創(chuàng)建方法CThread::Create()。線程創(chuàng)建方法采用了Win32線程庫提供的線程創(chuàng)建應(yīng)用程序接口CreateThread(Null,0,_ThreadEntry,this,0,&ThreadID)來實現(xiàn)。線程池類CThreadPool主要提供了一個數(shù)組變量m_list_thread來維護(hù)一個線程池,線程池內(nèi)的每個線程都存在了這個數(shù)組變量中,而具體的池內(nèi)線程的操作都交給了線程類CThread來完成。線程池類CThreadPool主要包括初始化線程池的初始化方法CThreadPool::InitInstance()來實現(xiàn)線程池內(nèi)所有線程的創(chuàng)建操作,具體通過CThread類的CThread::Create()方法來實現(xiàn)每個線程的創(chuàng)建。任務(wù)隊列類CJobQueue是線程池類的一個對象,維護(hù)了一個任務(wù)隊列數(shù)組列表m_normal_list,用戶任務(wù)經(jīng)過線程池類添加任務(wù)接口進(jìn)入此數(shù)組列表中。任務(wù)隊列類通過隊列列表來維護(hù)管理等待中的用戶任務(wù)。同步類CMutex主要是為了實現(xiàn)程序中的某些互斥操作設(shè)立的,通過對私有變量m_lock調(diào)用WinAPI函數(shù)的WaitForSingleObject()與ReleaseMutex()來實現(xiàn)程序的加鎖與解鎖操作。
三、性能監(jiān)測模塊
性能監(jiān)測模塊主要是監(jiān)測表征線程池性能的三個特征量:吞吐量、任務(wù)運算時間和任務(wù)阻塞時間。由于吞吐量是監(jiān)測用戶任務(wù)進(jìn)入任務(wù)隊列的數(shù)量,因此,對吞吐量的監(jiān)測可以在任務(wù)隊列類中實現(xiàn)。而任務(wù)運算時間和任務(wù)阻塞時間直接是與線程的執(zhí)行任務(wù)相關(guān)的,因此,將這兩個量的監(jiān)測放入線程類中實現(xiàn)。
性能監(jiān)測模塊對吞吐量的監(jiān)測方法。每當(dāng)有用戶任務(wù)通過線程池類進(jìn)入任務(wù)隊列時,任務(wù)隊列將其成員變量m_tuntu進(jìn)行加1操作,實現(xiàn)對吞吐量的實時更新。
任務(wù)運算時間的監(jiān)測方法主要通過調(diào)用Windows提供的API函數(shù)GetThreadTimes添加至線程類中的Run方法中來實現(xiàn)。GetThreadTimes函數(shù)可以返回四個參數(shù):線程創(chuàng)建時間、線程退出時間、系統(tǒng)代碼運算時間和用戶代碼運算時間。因此,可以通過對系統(tǒng)代碼時間與用戶代碼時間求和來得到任務(wù)占用CPU的時間,也就是任務(wù)運算時間。具體做法是當(dāng)線程類中Run方法啟動用戶任務(wù)時,即調(diào)用此API函數(shù),獲得任務(wù)進(jìn)入線程池時間;當(dāng)用戶任務(wù)運行結(jié)束時,再次調(diào)用此API函數(shù),即可獲得任務(wù)離開線程池時間,將二者做差即可得到任務(wù)占用CPU的運算時間。
對任務(wù)阻塞時間的監(jiān)測方法的實現(xiàn)則相對麻煩一些,因為沒有直接測試任務(wù)阻塞時間的API函數(shù).但是可以通過間接的方法來測量,即任務(wù)阻塞時間=任務(wù)執(zhí)行時間-任務(wù)運算時間。其中,任務(wù)執(zhí)行時間可以通過WindowsAPI函數(shù)getTickCount()來分別得到任務(wù)進(jìn)入線程池與離開線程池時的CPU時鐘,從而做差就可以求出任務(wù)執(zhí)行時間;而任務(wù)運算時間也可以得到,因此再將兩者做差就可以得出最后的任務(wù)阻塞時間。具體做法同監(jiān)測任務(wù)運算時間時的做法,只是改變了監(jiān)測的API函數(shù)。
四、支持向量機(jī)調(diào)優(yōu)模塊
根據(jù)支持向量機(jī)調(diào)優(yōu)模型,將支持向量機(jī)調(diào)優(yōu)模塊寫成線程類中的一個函數(shù)――調(diào)優(yōu)函數(shù)Tuning()。
通過線程池類內(nèi)的成員變量m_tuntu、m_cmptm和m_blktm獲取當(dāng)前線程池性能數(shù)據(jù),輸入到支持向量機(jī)方法中得到最佳線程池尺寸。當(dāng)最佳線程池尺寸與當(dāng)前線程池尺寸不符時,需要對線程池的尺寸進(jìn)行調(diào)整。當(dāng)需要增加線程池尺寸時,可以通過WindowsAPI函數(shù)CreateThread()來創(chuàng)建新線程;當(dāng)需要減小線程池尺寸時,可以通過調(diào)用函數(shù)TerminateThread()來銷毀空閑線程,最終達(dá)到所需的最佳線程池尺寸。
篇5
關(guān)鍵詞: IDS;異常檢測;行為模式;機(jī)器學(xué)習(xí);相似度
中圖分類號:TP18;TP393.08 文獻(xiàn)標(biāo)識碼:A
Anomaly Detection of User Behaviors Based on Machine Learning
SUN Hong-wei,TIAN Xin-guang, ZHANG Er-yang
(1.School of Electronic Science and Engineering, National University of Defense Technology, Changsha 410073, China;
2. Putian Telecom Corporation, Beijing 100088, China)
Abstract: Anomaly detection acts as one of the important directions of research on Intrusion Detection Systems (IDSs). In this paper, an anomaly detection model originated mainly by Terran Lane is briefly introduced. Then a new anomaly detection model based on machine learning is presented. The model uses shell command sequences of variable length to represent a valid user’s behavior patterns and uses more than one dictionaries of shell command sequences to build the user’s behavior profile. While performing detection, the model digs behavior patterns by sequence matching method and evaluates the similarities of the corresponding command sequences to the dictionaries. The two models are tested with UNIX users’ shell command data. The results show that the new model originated by us has higher detection performance.
Key words: IDS; anomaly detection; behavior pattern; machine learning; similarity measure
1 引言
目前,異常檢測是入侵檢測系統(tǒng)(IDS)研究的主要方向,這種檢測技術(shù)建立系統(tǒng)或用戶的正常行為模式,通過被監(jiān)測系統(tǒng)或用戶的實際行為模式和正常模式之間的比較和匹配來檢測入侵,其特點是不需要過多有關(guān)系統(tǒng)缺陷的知識,具有較強(qiáng)的適應(yīng)性,并且能夠檢測出未知的入侵模式。虛警概率高是目前限制異常檢測應(yīng)用的主要因素。異常檢測的關(guān)鍵問題在于正常行為模式(庫)的建立以及如何利用該模式(庫)對當(dāng)前行為進(jìn)行比較和判斷。
國內(nèi)外已經(jīng)開展了神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等智能技術(shù)在異常檢測中的應(yīng)用研究,研究目標(biāo)主要是提高檢測系統(tǒng)的準(zhǔn)確性、實時性、高效性以及自適應(yīng)性,其中一些研究成果在檢測性能和可操作性上已接近或達(dá)到了實用化水平。本文介紹了Lane T等人提出的基于機(jī)器學(xué)習(xí)的IDS用戶行為異常檢測模型,在其基礎(chǔ)上提出一種新的檢測模型,此模型用多種長度不同的shell命令序列表示用戶行為模式,建立多個樣本序列庫來描述正常用戶的行為輪廓,檢測時以長度可變的命令
序列為單位進(jìn)行相似度賦值,并將加窗濾噪后的相似度作為用戶身份的判決依據(jù)。利用UNIX用戶shell命令數(shù)據(jù)進(jìn)行的實驗表明,新的檢測模型具有很高的檢測性能和較強(qiáng)的可操作性。
2 基于機(jī)器學(xué)習(xí)的定長命令序列檢測模型
2.1 機(jī)器學(xué)習(xí)基本原理
機(jī)器學(xué)習(xí)是人工智能的一個新的分支,它是通過對人類認(rèn)知機(jī)理的研究,借助機(jī)器(計算機(jī)系統(tǒng))建立各種學(xué)習(xí)模型,賦予機(jī)器學(xué)習(xí)的能力,在此基礎(chǔ)上構(gòu)建具有特定應(yīng)用的面向任務(wù)的學(xué)習(xí)系統(tǒng)。一個機(jī)器學(xué)習(xí)系統(tǒng)主要有學(xué)習(xí)單元、知識庫、執(zhí)行單元組成,其中學(xué)習(xí)單元利用外界信息源提供的信息來建立知識庫并對其做出改進(jìn)(增加新知識或重新組織已有知識),執(zhí)行單元利用知識庫中的知識執(zhí)行任務(wù),任務(wù)執(zhí)行后的信息又反饋給學(xué)習(xí)單元作為進(jìn)一步學(xué)習(xí)的輸入。學(xué)習(xí)單元是機(jī)器學(xué)習(xí)系統(tǒng)實現(xiàn)學(xué)習(xí)功能的核心部分,它涉及處理外界信息的方式以及獲取新知識過程中所用的方法。知識庫用來存儲知識,包括系統(tǒng)原有的領(lǐng)域知識(這種知識是長期的、相對穩(wěn)定的),以及通過學(xué)習(xí)而獲得的各種新知識(這種知識是短期的、變化的),選擇何種知識表示對學(xué)習(xí)系統(tǒng)的設(shè)計起著非常重要的作用。執(zhí)行單元是使學(xué)習(xí)系統(tǒng)具有實際用途,同時又能夠評價學(xué)習(xí)方法好壞的關(guān)鍵部分。
機(jī)器學(xué)習(xí)研究中的很大一部分工作集中在分類和問題求解這兩個領(lǐng)域;經(jīng)過三十多年的發(fā)展,目前已有了很多學(xué)習(xí)方法,如歸納學(xué)習(xí)、實例學(xué)習(xí)、遺傳學(xué)習(xí)等,但這些方法均有其局限性,結(jié)合具體的應(yīng)用領(lǐng)域探討新的學(xué)習(xí)方法和算法是目前的研究主流。
2.2 定長命令序列檢測模型的描述
美國Purdue大學(xué)的Lane T等人提出了一種基于機(jī)器學(xué)習(xí)的用戶行為異常檢測模型,并對模型進(jìn)行了深入的研究和實驗。其模型利用長度固定的shell命令序列表示用戶的行為模式,建立樣本序列庫來描述正常用戶的行為輪廓;工作時,將被監(jiān)測用戶的命令序列同正常用戶的樣本命令序列庫進(jìn)行比較和匹配,根據(jù)兩者的相似度對被監(jiān)測用戶的身份進(jìn)行判斷。模型的要點簡述如下[2]:
(1)將長度固定的shell命令序列作為描述用戶行為模式的最小數(shù)據(jù)單元,采用實例學(xué)習(xí)方法建立正常用戶的樣本序列庫(知識庫)。
(2)定義兩序列之間的相似度,它用于表示兩個序列所代表的行為模式之間的相似程度。在此基礎(chǔ)上,定義一個序列同樣本序列庫的相似度,它用于表示此序列所代表的行為模式同正常用戶各種行為模式之間的最大相似程度。
(3)模型工作時,計算被監(jiān)測用戶序列流中的每個序列同正常用戶樣本序列庫的相似度,然后,對相似度進(jìn)行加窗濾噪處理,得到按時間順序排列的相似度判決值,根據(jù)判決值的大小對被監(jiān)測用戶的身份進(jìn)行實時判決。
模型中有以下幾個關(guān)鍵問題:一、最佳序列長度的選擇;二、樣本序列的提?。蝗?、相似度函數(shù)的定義;四、濾噪算法的選擇。Lane T等人針對以上問題利用UNIX用戶的shell命令數(shù)據(jù)做了大量實驗,以下是他們得出的結(jié)論:
(1)最佳序列長度同具體用戶的行為特點有關(guān)。隨著序列長度的增大(從1到15),模型的檢測性能隨用戶的不同而呈現(xiàn)出不同的變化趨勢。
(2)在各種相似度函數(shù)中,關(guān)心相鄰命令之間相關(guān)性的相似度函數(shù)對應(yīng)的檢測性能優(yōu)于不考慮相關(guān)性的相似度函數(shù)。均值濾噪和中值濾噪算法[2]對應(yīng)的檢測性能差別不大。
(3)在聚類、按出現(xiàn)概率提取、按時間順序截取、隨機(jī)選擇等樣本序列提取方法中,聚類方法對不同用戶的適應(yīng)性要強(qiáng)一些,但實現(xiàn)起來最復(fù)雜。
3 基于機(jī)器學(xué)習(xí)的變長命令序列檢測模型
3.1 變長命令序列檢測模型的描述
Lane T等人提出的定長命令序列檢測模型主要有兩個缺點:一、在用戶行為模式的表示上缺乏靈活性和適應(yīng)性。行為模式是指用戶操作過程中體現(xiàn)出的某種規(guī)律性;實際中,不同用戶所具有的行為模式存在差異,同一用戶完成不同行為模式時所執(zhí)行的命令個數(shù)也不盡相同,因而,用長度固定的命令序列難以全面準(zhǔn)確地表示出用戶的整體行為輪廓。二、不容易估算針對具體用戶的最佳序列長度。Lane T等人主要采用實驗方法來確定最佳序列長度,這種方法所需的計算量很大,而且其性能缺乏穩(wěn)定性。我們針對定長命令序列檢測模型的以上不足進(jìn)行了改進(jìn)和修正,提出一種變長命令序列檢測模型,具體描述如下:
(1)根據(jù)正常用戶的歷史行為,定義種長度不同的shell命令序列,用于表示正常用戶的各種行為模式。
設(shè)序列長度的集合為,其中表示第種序列的長度,且。在樣本序列庫的個數(shù)確定的情況下,可有不同的選擇。例如時,可以為(即三種序列的長度分別為),也可以為或其它組合。和對檢測性能有直接影響,在選擇它們時,除了要充分考慮正常用戶的行為特點之外,還需考慮模型的復(fù)雜度及檢測效率(和越大,檢測系統(tǒng)的存儲量和工作中的運算量也會越大)。
(2)針對每種序列建立一個樣本序列庫,用個樣本序列庫來描述正常用戶的行為輪廓(行為模式集合)。按照正常用戶歷史行為中各序列的出現(xiàn)概率來提取樣本序列。
設(shè)個樣本序列庫的集合,其中表示長度為的序列對應(yīng)的樣本序列庫。設(shè)正常用戶的訓(xùn)練數(shù)據(jù)(歷史數(shù)據(jù))為,它是一個長度為的shell命令流,其中表示按時間順序排列的第個命令,對應(yīng)的長度為()的命令序列流可表示為,其中。我們設(shè)定一個概率門限,將()中出現(xiàn)概率大于的命令序列視為正常用戶的行為模式,即是由這些命令序列組成。
(3)定義序列之間以及序列同樣本序列庫之間的相似度函數(shù),用以描述行為模式之間以及行為模式同用戶整體行為輪廓之間的相似程度。
設(shè)長度為的兩序列和的相似度為,其計算方法如下[1]:
第一步:設(shè)定,,。
第二步:如果(其中表示中的第個命令),則,;否則,,。
第三步:。如果,返回執(zhí)行第二步;否則,。
根據(jù)以上定義,如果時(即兩序列相同),則有。
序列和樣本序列庫的相似度函數(shù)定義為:
(1)
(4)檢測時,以長度可變的命令序列為單位進(jìn)行相似度賦值,并將加窗濾噪后的相似度作為用戶身份的判決依據(jù)。
對于被監(jiān)測用戶的命令流,將它所對應(yīng)的長度為的序列流表示為,其中。模型工作時,按照以下方法定義第個長度可變的序列并計算它同樣本序列庫集合的相似度。
第一步:設(shè)定,,。
第二步:如果,根據(jù)(1)式計算;否則,結(jié)束序列定義和相似度計算過程。
第三步:如果(即與中的某個序列相同),則,,,,,并返回執(zhí)行第二步;否則,。
第四步:如果,返回執(zhí)行第二步;如果,則,,,,,并返回執(zhí)行第二步。
按照以上方法進(jìn)行變長序列的定義和相似度計算,可得到按時間順序排列的相似度輸出值序列,其中為中的變長序列個數(shù),,對此序列進(jìn)行加窗濾噪處理,得到相似度判決值,對此值設(shè)定一個門限,若它大于,將被監(jiān)測用戶判為正常用戶,否則,將其判為異常用戶。采用均值濾噪算法時的相似度判決值為:
(2)
式中表示用戶第個變長序列對應(yīng)時間點上的相似度判決值(模型在中第個變長序列之后的每個序列對應(yīng)時間點上都做一次判決),為窗長度,它是一個很重要的參數(shù),決定了從被監(jiān)測用戶行為發(fā)生到檢測系統(tǒng)對其行為做出判斷的最短時間(即檢測時間)。
3.2 模型的分析與比較
我們提出的變長命令序列檢測模型主要有以下幾個特點:
(1)用多種長度不同的命令序列表示正常用戶的行為模式,并針對每種命令序列建立一個樣本序列庫,這可以更好地反映正常用戶的實際行為輪廓。
(2)以長度可變的序列為單位進(jìn)行相似度賦值,其實質(zhì)是在被監(jiān)測用戶命令流中進(jìn)行行為模式挖掘。行為模式挖掘過程中,以當(dāng)前命令為起點組成多個長度不同的序列,并按照長度從大到小的順序依次同相應(yīng)的樣本序列庫進(jìn)行比較,如果其中一個序列同相應(yīng)樣本序列庫中的某個序列相同,則認(rèn)為挖掘到一個行為模式,將此序列提取出來并進(jìn)行相似度賦值,序列長度越大,所賦的值也越大,如果任何一個序列同相應(yīng)樣本序列庫中的序列都不相同,則將當(dāng)前命令提取出來作為長度為1的序列,并將它與樣本序列庫的相似度賦以0值;然后,再以此序列之后的下一個命令為起點組成多個序列繼續(xù)進(jìn)行挖掘和賦值。
Lane T等人的定長序列檢測模型關(guān)心的是以當(dāng)前命令為起點的定長序列與正常用戶各個行為模式之間的最大相似程度,而變長序列檢測模型關(guān)心的是以當(dāng)前命令為起點的多個長度不同的序列是否能夠同正常用戶的某個行為模式完全匹配。
(3)定長序列檢測模型對正常用戶和異常用戶的檢測時間是相同的。變長序列檢測模型則不然,其檢測時間為個變長序列持續(xù)時間(不考慮模型的計算時間),設(shè)變長序列的平均長度為,則平均檢測時間為個命令持續(xù)時間;當(dāng)被監(jiān)測用戶是正常用戶時,在其命令流中挖掘到的行為模式會比較多,相對較大,最大可為,當(dāng)被監(jiān)測用戶是異常用戶時,在其命令流中只能挖掘到很少的(正常用戶的)行為模式,相對較?。ㄗ钚】蔀?);所以,模型對異常用戶的平均檢測時間相對要短。
(4)此模型需要建立多個樣本序列庫,因而對檢測系統(tǒng)數(shù)據(jù)存儲空間的需求相對較大。
4 實驗結(jié)果
我們進(jìn)行了分組實驗,每組實驗中將一個用戶設(shè)為正常用戶,而將其他三個設(shè)為異常用戶,分別采用兩種模型進(jìn)行訓(xùn)練和測試;正常用戶的前個命令用于模型的訓(xùn)練(建立樣本序列庫),正常用戶和異常用戶的后個命令用于模型檢測性能的測試。在定長序列檢測模型中,序列長度為;在變長序列檢測模型中,序列長度集合。兩種模型中,每種樣本序列庫均由正常用戶的近個序列中出現(xiàn)概率大于的序列組成,檢測時采用均值濾噪算法計算判決值。
為了在對異常用戶的平均檢測時間相同的情況下比較兩種模型的性能,我們做了四組實驗,四個用戶各在一組實驗中被設(shè)為正常用戶。每組實驗中,采用變長序列檢測模型時,用于性能測試的各異常用戶命令流(包含個命令)中的變長序列個數(shù)平均約為,因此,我們將變長序列檢測模型的窗長度設(shè)為,而將定長序列檢測模型的窗長度設(shè)為,以保證兩種模型對異常用戶的平均檢測時間基本相同。實驗中通過調(diào)整判決門限可以得到不同虛警概率情況下對三個異常用戶的平均檢測概率。表1給出了USER4被設(shè)為正常用戶時的一組實驗結(jié)果。
表1 USER4被設(shè)為正常用戶時的實驗結(jié)果
虛警概率
0.001
0.005
0.010
0.050
定長序列模型的 平均檢測概率
0.67
0.70
0.76
0.79
0.96
變長序列模型的 平均檢測概率
0.83
0.86
0.88
0.92
0.99
根據(jù)表1的實驗結(jié)果,在虛警概率較低的區(qū)間,變長序列檢測模型對應(yīng)的平均檢測概率相對定長序列檢測模型有明顯的提高。其余三組實驗的結(jié)果也證明了這一點,這里不再一一列出。
5 結(jié)論
本文提出一種新的基于機(jī)器學(xué)習(xí)的IDS用戶行為異常檢測模型,并利用UNIX用戶的shell命令數(shù)據(jù)進(jìn)行了實驗,實驗結(jié)果表明,新模型的檢測性能同Lane T等人提出的檢測模型相比有較大改善。由于模型中的學(xué)習(xí)方法和檢測算法對不同的檢測數(shù)據(jù)有一定的適應(yīng)性,因而此模型也可以用于shell命令之外其它數(shù)據(jù)類型(如系統(tǒng)調(diào)用)的IDS,但具體的應(yīng)用范圍及檢測性能還需要進(jìn)一步的研究和實驗。
篇6
Statistical and Machine
Learning Approaches for
Network Analysis
2012,344p
Hardcover
ISBN9783527331833
M·德默等編
圖形結(jié)構(gòu)被用于計算機(jī)可以識別的結(jié)構(gòu)信息時,對圖形信息進(jìn)行統(tǒng)計分析就成為可能。生物信息學(xué)、分子與系統(tǒng)生物學(xué)、理論物理、計算機(jī)科學(xué)、化學(xué)、工程等多個領(lǐng)域都在利用這一特點充分發(fā)揮計算機(jī)在分析和統(tǒng)計方面的優(yōu)勢。本書的一個重要特點就是將諸如圖論、機(jī)器學(xué)習(xí)及統(tǒng)計數(shù)據(jù)分析之類的理論相互結(jié)合,形成一個新領(lǐng)域,以交叉學(xué)科的方式探索復(fù)雜網(wǎng)絡(luò)?;蚪M、蛋白質(zhì),信號以及代謝組學(xué)數(shù)據(jù)的大規(guī)模生成使得復(fù)雜網(wǎng)絡(luò)的構(gòu)建成為可能,它為理解生理學(xué)以及病理學(xué)狀態(tài)的分子基礎(chǔ)提供了一個嶄新的框架。網(wǎng)絡(luò)和基于網(wǎng)絡(luò)的方法用于生物學(xué)中以便表征基因組、遺傳機(jī)理以及蛋白質(zhì)信號。疾病被看作關(guān)鍵細(xì)胞網(wǎng)絡(luò)的異常干擾。如今,在對諸如癌癥、糖尿病等的復(fù)雜疾病的干預(yù)中,就使用網(wǎng)絡(luò)理論來分析。
本書共有11章:1.重構(gòu)及劃分生物網(wǎng)絡(luò)計算方法概論; 2.復(fù)雜網(wǎng)絡(luò)入門:度量、統(tǒng)計性質(zhì)及模型; 3.進(jìn)化中的生物網(wǎng)絡(luò)建模; 4.內(nèi)含動力學(xué)的生物網(wǎng)絡(luò)的模塊性配置; 5.統(tǒng)計概算機(jī)對管理網(wǎng)絡(luò)大規(guī)模因果推理的影響; 6.加權(quán)頻譜分布:網(wǎng)絡(luò)結(jié)構(gòu)分析的度量; 7.進(jìn)化中的隨機(jī)二部圖的結(jié)構(gòu); 8.圖形內(nèi)核; 9.用于早老性癡呆病的基于網(wǎng)絡(luò)的信息協(xié)同分析; 10.結(jié)構(gòu)化數(shù)據(jù)中基于密度的集合枚舉; 11.采用加權(quán)圖形內(nèi)核的下位詞析取。
本書第1主編是奧地利健康與生命大學(xué)生物信息學(xué)和轉(zhuǎn)化研究所所長,他在生物信息學(xué)、系統(tǒng)生物學(xué)和應(yīng)用離散數(shù)學(xué)領(lǐng)域130篇。他是Wiley出版的《復(fù)雜疾病醫(yī)學(xué)生物統(tǒng)計學(xué)》《復(fù)雜網(wǎng)絡(luò)分析》和《微陣列數(shù)據(jù)分析》等書的合作編者。
本書可用作應(yīng)用離散數(shù)學(xué)、生物信息學(xué)、模式識別、計算機(jī)科學(xué)專業(yè)跨學(xué)科研究生課程的補充讀物,對于這些領(lǐng)域的研究人員和專業(yè)人員,也是一本有價值的參考書。
胡光華,退休高工
(原中國科學(xué)院物理學(xué)研究所)
篇7
關(guān)鍵詞:域名系統(tǒng)拒絕服務(wù),神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)
1 引言
早期的DNS是基于不可靠傳遞的用戶數(shù)據(jù)報協(xié)議(UDP)設(shè)計的,而且DNS的安全性在當(dāng)時并不是大問題,因為早期的設(shè)計足以滿足互聯(lián)網(wǎng)的需求?,F(xiàn)在,DNS已成為互聯(lián)網(wǎng)和具有一定規(guī)模的專用網(wǎng)絡(luò)的運營的一項重要服務(wù),所以有必要確保DNS系統(tǒng)避免任何未經(jīng)授權(quán)的訪問。本文的第一個目標(biāo)是評估對DNS的不同類型的DoS攻擊。這些攻擊識別模式促使我們通過改變不同的參數(shù)模擬不同的攻擊方案來產(chǎn)生所需的數(shù)據(jù)。
最常見的兩種DNS拒絕服務(wù)攻擊是直接DoS攻擊和放大攻擊。首先,攻擊者試圖通過從單個或多個源發(fā)送過多流量來擊垮服務(wù)器。因此,這將導(dǎo)致目標(biāo)服務(wù)器接收大量查詢數(shù)據(jù)包。被DoS攻擊淹沒的域名服務(wù)器將經(jīng)受丟失包和不能總是回復(fù)所有DNS請求。參考文獻(xiàn)[1]指出DNS數(shù)據(jù)流的數(shù)據(jù)包長度小,況且異常數(shù)據(jù)包相似性使得檢測過程更加困難。
另一方面,攻擊者建立最先進(jìn)和典型的DoS攻擊類型,稱為放大攻擊,來增強(qiáng)一般DOS攻擊的影響。這種攻擊類型命名為放大是因為攻擊者抓住了小查詢可以產(chǎn)生更大量UDP響應(yīng)數(shù)據(jù)包這個事實[2]。現(xiàn)在,DNS協(xié)議(RFC2671)被攻擊者用來擴(kuò)大放大系數(shù)。例如,一個60字節(jié)的DNS請求可以得到超過4000個字節(jié)的回應(yīng)。這將產(chǎn)生超過60的放大因素。多位研究者研究過放大攻擊的影響。根據(jù)他們的分析,這些攻擊模式包含了龐大數(shù)量的大于512字節(jié)的標(biāo)準(zhǔn)DNS數(shù)據(jù)包的非標(biāo)準(zhǔn)包[3]。
2 數(shù)據(jù)集生成仿真模型
訪問流量仿真真實環(huán)境較難,所以我們利用了網(wǎng)絡(luò)模擬器。據(jù)我們所知,可用的DNS的DoS攻擊生成數(shù)據(jù)集并不存在。因此,我們的實驗用模擬生成所需的數(shù)據(jù)。我們的模型使用NS-2(版本2.28)的OTcl程序進(jìn)行模擬,它用于構(gòu)造DNS不同的DoS攻擊。
我們的模擬網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)包含一臺合法的客戶機(jī)、一個攻擊者和兩臺服務(wù)器。所有節(jié)點都連接到同一個路由器。所有鏈路都是100Mbps和10ms延遲,除了目標(biāo)服務(wù)器和路由器之間鏈路是10Mbps和10ms延遲。我們以落尾排隊策略使用一個100個數(shù)據(jù)包大小的隊列。網(wǎng)絡(luò)中有兩種類型的流量的產(chǎn)生,即合法流量和攻擊流量。我們模擬修改了服務(wù)器的應(yīng)用程序,請求間隔時間固定為10秒。攻擊者期望用過剩的流量淹沒目標(biāo)域名服務(wù)器。DOS流量模擬成恒定比特率(CBR)源。CBR由NS-2中CBR流量生成器生成。我們選取不同的延遲值來確定攻擊開始時間,來應(yīng)對各種變化。
3 系統(tǒng)結(jié)構(gòu)
本節(jié)提出了一種新型DNS的DoS攻擊檢測系統(tǒng),它使用了一種機(jī)器學(xué)習(xí)引擎來檢測和分類攻擊。該IDS是一個基于IDS(NNIDS)的網(wǎng)絡(luò)節(jié)點,它可實施在域名服務(wù)器上以達(dá)到檢測攻擊的目的。圖1用輸入輸出數(shù)據(jù)類型給出了我們所提出的系統(tǒng)的總體結(jié)構(gòu)。
該系統(tǒng)從收集域名服務(wù)器收到的數(shù)據(jù)包流開始。接下來,預(yù)處理器基于一個管理員指定的20秒時間窗口統(tǒng)計分析流量,超過了最大查找延遲??赡軜?biāo)識域名服務(wù)器收到的DNS流量的參數(shù),構(gòu)成了分類器的輸入定義如下:
① 收到的DNS吞吐量需定義為服務(wù)器所收到的比特數(shù)量。我們測量了指定的時間窗口指標(biāo)的平均值。
② 服務(wù)器在監(jiān)測時間窗口接收的數(shù)據(jù)包平均長度。,域名系統(tǒng)拒絕服務(wù)。,域名系統(tǒng)拒絕服務(wù)。
③ 丟失包定義為由于洪水攻擊流量沒能達(dá)到其目標(biāo)的丟失DNS數(shù)據(jù)包的數(shù)量。,域名系統(tǒng)拒絕服務(wù)。,域名系統(tǒng)拒絕服務(wù)。
在預(yù)處理流量和基于指定特征選擇產(chǎn)生所需數(shù)據(jù)集后,機(jī)器學(xué)習(xí)引擎得以應(yīng)用。,域名系統(tǒng)拒絕服務(wù)。四種不同的機(jī)器學(xué)習(xí)引擎已為我們的系統(tǒng)所評估,其中三個在神經(jīng)網(wǎng)絡(luò)分類器范疇,最后一個是基于支持向量的典型算法。這些引擎在接下來的章節(jié)中將詳細(xì)介紹。
圖1 系統(tǒng)框架
3.1 BP神經(jīng)網(wǎng)絡(luò)
本文中,我們嘗試找到優(yōu)化的BP網(wǎng)絡(luò)來有效地檢測和對不同的DNS的DOS攻擊分類。我們的BP神經(jīng)網(wǎng)絡(luò)有三個層次。輸入層的單元數(shù)目適合于輸入矢量的特征,即DNS流量的三大特征。輸出層還有三個單元表示正常和DoS攻擊的不同狀態(tài): [0 0 0]表示正常狀態(tài),[0 0 1]表示直接DoS攻擊以及[0 1 0]表示放大攻擊。我們?yōu)锽P網(wǎng)絡(luò)訓(xùn)練過程做出下列主要假設(shè):時代數(shù)= 500,平均方差(MSE)= 0.00001,培訓(xùn)功能=列文伯格-馬夸爾特法反向傳播(trainlm),激活功能=tan-sigmoid函數(shù)。我們的網(wǎng)絡(luò)優(yōu)化結(jié)構(gòu),發(fā)現(xiàn)隱藏神經(jīng)元的數(shù)量從3到13個不等。該系統(tǒng)在隱藏層的最佳精度是7個神經(jīng)元。
3.2 RBF神經(jīng)網(wǎng)絡(luò)
為了實現(xiàn)一個優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)的分類問題,我們需要為隱藏單元和RBF中心和寬度指定激活函數(shù)。隱藏層主要使用的激活函數(shù)是高斯函數(shù),它已經(jīng)用于我們的RBF分類器的隱藏單元。質(zhì)心位置已用K-means聚類算法選擇,接著寬度參數(shù)計算公式如下:
由于要求高計算能力,我們初步測試中不可能獲取與BP神經(jīng)網(wǎng)絡(luò)相同的MSE。因此,我們設(shè)定MSE值0.001。
3.3 SOM神經(jīng)網(wǎng)絡(luò)
在這個實驗中,三個特征的輸入向量因輸入值的差別很大已被歸一。如果原始數(shù)據(jù)被直接應(yīng)用到網(wǎng)絡(luò),那么具有較高值的輸入樣本可能會導(dǎo)致抑制較小值的影響。因此,下面的公式給出標(biāo)準(zhǔn)的規(guī)范化:
測試不同數(shù)目的神經(jīng)元,以找到最佳的執(zhí)行網(wǎng)絡(luò)。,域名系統(tǒng)拒絕服務(wù)。查看流量數(shù)據(jù)使用的分類器的輸出,我們得到了同樣的結(jié)果,并且注意到所有正常流量在指定范圍內(nèi)聚集,而可疑流量在顯示可能攻擊群的外面。當(dāng)我們對結(jié)果充滿信心時,受測試數(shù)據(jù)控制訓(xùn)練好的網(wǎng)絡(luò)得以評估。因此,實施SOM神經(jīng)網(wǎng)絡(luò)的主要假設(shè)如下:時代數(shù)= 1000,神經(jīng)元數(shù)目= 25,相鄰?fù)負(fù)? Hextop(六角層拓?fù)浜瘮?shù)),距離函數(shù)= Linkdist,預(yù)訂階段學(xué)習(xí)率= 0.9,預(yù)訂階段步驟= 1000,調(diào)整階段學(xué)習(xí)率= 0.02,調(diào)整階段相鄰距離= 1。
3.4 支持向量機(jī)
SVM是最近入侵檢測系統(tǒng)中使用的另一種學(xué)習(xí)與軟計算技術(shù)?;镜腟VM算法是為分類對象分為兩類而設(shè)計的,但許多現(xiàn)實世界的問題有兩種以上的處理方法。在我們的實驗中,實施一對所有的方案是為解決這個問題的。它構(gòu)造3位SVM分類器,每個分類器將其中一個類從其余類分開。第i 個SVM是利用第i類正標(biāo)簽(+1)的訓(xùn)練集進(jìn)行訓(xùn)練,而負(fù)標(biāo)簽(-1)則為其他。最后,我們的測試數(shù)據(jù)的樣本歸為第i類,它擁有三種分類器之間的最大值。
在訓(xùn)練階段, 應(yīng)提供具有相應(yīng)參數(shù)的適當(dāng)函數(shù)。這將是一個耗時的過程,因為訓(xùn)練的機(jī)器使用不同的內(nèi)核參數(shù),且當(dāng)中只有一個是測試過程中選為表現(xiàn)最好的。
三個徑向內(nèi)核分別為1.5、10和5伽馬的支持向量機(jī)和最佳正規(guī)參數(shù)C= 100、1和1000000用來實施三個分類器。徑向基礎(chǔ)內(nèi)核公式如下:
4 系統(tǒng)評估
為評估我們所提出的系統(tǒng),定義了下列性能指標(biāo):
精度,是指歸為總體數(shù)據(jù)中準(zhǔn)確類型的數(shù)據(jù)比例。準(zhǔn)確的情況是真陽性(TP)和真陰性(TN),而虛假的檢測情況是假陽性(FP)和假陰性(FN)。該系統(tǒng)的精度計算公式如下:
檢測率(DR),是指在所有攻擊中檢測到的攻擊所占的比例。兩種攻擊的指標(biāo)按下列公式計算:
誤報率(FAR),是指被分類器錯誤分類的網(wǎng)絡(luò)流量的百分比。其計算公式如下:
表1:不同分類器的性能比較
表1列出了三個神經(jīng)網(wǎng)絡(luò)分類器以及SVM的性能比較。結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)優(yōu)于本文實現(xiàn)的其他類型的分類器。它給我們提供了以可接受的誤報率對DNS的拒絕服務(wù)的良好的檢測率。
5 結(jié)束語
本文介紹了DNS的兩個不同類型的DoS攻擊,直接DoS和放大攻擊。對DNS流量的DoS攻擊的影響的調(diào)查使我們發(fā)現(xiàn)可疑行為?;谶@些模式,分析測量所需的流量數(shù)據(jù)通過使用最靈活的網(wǎng)絡(luò)模擬器NS - 2進(jìn)行模擬。最后,提出了基于機(jī)器學(xué)習(xí)的系統(tǒng),通過幾種流量統(tǒng)計來檢測和分類DNS的DoS攻擊。兩種不同的機(jī)器學(xué)習(xí)算法為探測器引擎進(jìn)行了評估,也即神經(jīng)網(wǎng)絡(luò)分類器和支持向量機(jī)。性能比較結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)以對直接DoS攻擊99.55%的檢測率優(yōu)于其他分類器,97.82%放大攻擊檢測率,99%的準(zhǔn)確率,以及0.28%的誤報率。
【參考文獻(xiàn)】
[1]Y. Wang, M. Hu, B. Li and B. Yan, Tracking anomalous behaviors of name serversby mining DNS traffic, LECTURE NOTES IN COMPUTER SCIENCE,p351-357, 2006
[2]R. Vaughn and G. Evron. DNS Amplification Attacks,isotf.org/news/
DNS-Amplification-Attacks.pdf.Accessed,Nov. 2008
篇8
關(guān)鍵詞:圖像處理;機(jī)器學(xué)習(xí);邏輯回歸;梯度下降
中圖分類號:TP391.41
1 背景簡介
現(xiàn)今,人與計算機(jī)的交互活動越來越成為人們?nèi)粘I畹囊粋€重要組成部分。傳統(tǒng)的人機(jī)交互存在各種缺陷,如:必須使用鍵盤、鼠標(biāo)或操縱桿方能完成人機(jī)交互。因此,新興的交互方式應(yīng)運而生,其中動態(tài)手勢識別逐漸成為人機(jī)交互中最熱門的新興交互方式之一。動態(tài)手勢識別采用手指的形態(tài)來進(jìn)行標(biāo)記和識別,從而操控計算機(jī),在人機(jī)交互過程中發(fā)揮越來越重要的作用。因此,體感手勢這一課題意義深遠(yuǎn),具有廣闊的實際應(yīng)用前景。
2 系統(tǒng)功能介紹
2.1 定義人機(jī)交互手勢:通過在手指上面套上兩種顏色鮮明的指環(huán),規(guī)定控制方向的向上,向下,向左,向右四種手勢,點擊以及縮小,放大等手勢操作。
2.2 在OpenCV平臺上面,利用CamShift算法來獲取多個動態(tài)手勢點的位置。
2.3 將多個位置點的視頻流數(shù)據(jù)利用機(jī)器學(xué)習(xí)中的線性回歸,梯度下降算法,得出相應(yīng)的手勢操作結(jié)果。
2.4 利用手勢操作的結(jié)果,利用無線網(wǎng)絡(luò)傳輸數(shù)據(jù)來控制鼠標(biāo)的移動/利用紅外數(shù)據(jù)來控制電視機(jī)電臺切換以及音量控制,替代遙控器的功能。
3 理論算法
3.1 Camshift算法介紹。Camshift算法是MeanShift算法的改進(jìn),稱為連續(xù)自適應(yīng)的MeanShift算法。
Camshift算法可以分為三個部分:(1)計算色彩投影圖:將圖像從RGB顏色空間轉(zhuǎn)換到HSV顏色空間,對H分量進(jìn)行直方圖統(tǒng)計,將圖像中每個像素的值用其顏色出現(xiàn)的概率進(jìn)行替換,由此得到顏色概率分布圖。(2)MeanShift尋優(yōu)算法:通過不斷迭代計算得到最優(yōu)搜索窗口的位置和大小。(3)CamShift跟蹤算法:在視頻序列的每一幀當(dāng)中都運用meanShift,并將上一幀的MeanShift結(jié)果作為下一幀的初始值,如此不斷循環(huán)迭代,就可以實現(xiàn)目標(biāo)的跟蹤了。
3.2 邏輯回歸以及梯度下降算法
我們利用邏輯回歸函數(shù)可以來實現(xiàn)有監(jiān)督學(xué)習(xí)的多分類實現(xiàn)。
4.3 手勢操作的機(jī)器實現(xiàn)。通過提取視頻流中動態(tài)手勢點的特征信息,通過機(jī)器學(xué)習(xí)的決策分類之后獲得了不同手勢的操作。利用API函數(shù)GetCursorPos SetCursorPos mouse_event來操作鼠標(biāo)的移動/點擊/滾作。
4.4 實驗結(jié)果。經(jīng)過機(jī)器學(xué)習(xí)算法提取的手勢點坐標(biāo):
5 結(jié)束語
本文提出了基于Camshift算法結(jié)合機(jī)器學(xué)習(xí)分類算法實現(xiàn)了手勢多點跟蹤以及簡單的鼠標(biāo)控制操作。由于Camshift算法對顏色要求比較高,在實際情景中對顏色要求很苛刻。而且為了更好更精準(zhǔn)的對鼠標(biāo)進(jìn)行操控,該算法需要戴實驗用的指環(huán)套,并且手勢類型不夠多樣化。在算法的準(zhǔn)確性上面還有待改進(jìn)。
參考文獻(xiàn):
[1]Gray Bradski& Adrian Kaebler 著,于仕琪,劉瑞禎,譯.學(xué)習(xí)OpenCV(中文版)[M].清華大學(xué)出版社,2009-10.
[2]于仕琪,劉瑞禎.OpenCV教程(基礎(chǔ)篇)[M].北京:航空大學(xué)出版社,2007-6.
[3]斯蒂格 尤里奇 威德曼 著,楊少榮,譯.機(jī)器視覺算法與應(yīng)用[M].清華大學(xué)出版社,2008-11.
[4]西剎子.安防天下:智能網(wǎng)絡(luò)視頻監(jiān)控技術(shù)詳解與實踐[M].清華大學(xué)出版社,2010-2.
[5]汪光華.智能安防:視頻監(jiān)控全面解析與實例分析[M].機(jī)械工業(yè)出版社,2012-8.
[6]康威 John Myles White 著,陳開江,劉逸哲,孟曉楠,譯.機(jī)器學(xué)習(xí):實用案例解析[M].機(jī)械工業(yè)出版社,2013-4.
作者簡介:高鑫(1992.7.20-),男,浙江寧波人,學(xué)生,本科,研究方向:信息安全。
篇9
>> 機(jī)器人智能化研究的關(guān)鍵技術(shù)與發(fā)展展望 智能化綠色建筑在辦公園區(qū)中的實踐及展望 能效管理在智能化建筑中的應(yīng)用及發(fā)展趨勢 基于車聯(lián)網(wǎng)的汽車智能化發(fā)展研究 汽車智能化技術(shù)的發(fā)展趨勢研究 汽車基本構(gòu)造及智能化的研究 綠色建筑中的智能化技術(shù)應(yīng)用探究 智能化技術(shù)在綠色建筑中的應(yīng)用論述 智能化技術(shù)在綠色建筑中的應(yīng)用分析 遺傳算法在智能機(jī)器人行為規(guī)劃中的應(yīng)用研究 智能化、信息化技術(shù)在紡織行業(yè)中的應(yīng)用與發(fā)展 智能化和信息化在工程機(jī)械發(fā)展中的應(yīng)用 智能化噴涂機(jī)器人的研究現(xiàn)狀及進(jìn)展 智能化數(shù)字電源的應(yīng)用與發(fā)展研究 國內(nèi)外智能化建筑的發(fā)展動態(tài)及展望 電氣自動化在樓宇智能化中的應(yīng)用研究 智能化技術(shù)在電氣工程自動化中的應(yīng)用價值研究 建筑電氣自動化在樓宇智能化中的應(yīng)用研究 智能化技術(shù)在機(jī)械工程自動化中的應(yīng)用研究 試論固網(wǎng)智能化的應(yīng)用與展望 常見問題解答 當(dāng)前所在位置:l.
[8] 王笑京,沈鴻飛,汪林.中國智能交通系統(tǒng)發(fā)展戰(zhàn)略研究[J].交通運輸系統(tǒng)工程與信息,2006,6(4):9-12.
[9] 邵恩坡.發(fā)展天然氣汽車存在的問題及對策[J].節(jié)能技術(shù),2005,23(6):554-556.
[10] WicksM C.Radar the next generation2sensors as robots[C]//. IEEE Radar Conference,Washington,USA.2003:4-18.
[11] 沈,毛建國,李舜酩.單目視覺車道線識別算法及其ARM實現(xiàn)[J].南京航空航天大學(xué)學(xué)報,2008,40(2):208-212.
[12] Baber J,Kolodko J,Noe T,et al.Intelligent vehicles sharing city roads[J].IEEE Transactions on Robotics & Automation Magazine,2005,12(1):44-49.
[13] Liu Y,Ozguner U,Acarman T.Performance evaluation of intervehicle communication in highway systems and in urban areas[J]. IEEE Intelligent Transport Systems,2006,153 (1) : 63-75.
[14] Chen Q,OzgunerU,Redmill K. Developing acompletely autonomous vehicle[J]. IEEE Intelligence Systems,2004,19(5) : 8-11.
[15] 張新豐,林凱,劉旺,等.汽車語控智能電器系統(tǒng)[J].汽車工程,2007,29 (7):601-605.
[16] 韓玉敏.汽車智能電子節(jié)氣門控制系統(tǒng)研究[J].交通科技與經(jīng)濟(jì),2006,8(2):87-89.
[17] 趙巖,王哈力,等.汽車智能雨刷系統(tǒng)的設(shè)計[J].電子科技,2007,2(209): 70-72.
[18] Xin J ianghui,Li Shunming,Liao Qingbin,et al. The application of fuzzy logic in exploration vehicle[C]//.International Conferenceon Fuzzy Systems and Knowledge Discovery.2007:195-203.
[19] 王珊,王會舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)現(xiàn)狀與展望[J].計算機(jī)學(xué)報,2011(10):1741-1752.
[20] 余凱,賈磊,陳雨強(qiáng).深度學(xué)習(xí):推進(jìn)人工智能的夢想[J].程序員,2013(6): 22-27.
篇10
【關(guān)鍵詞】糧食 種植面積 指標(biāo)體系
一、引言
糧食種植面積是保證國家糧食供給安全的重要前提,研究糧食種植面積是十分有意義的。國家糧價收購政策、農(nóng)業(yè)從業(yè)人員、糧食進(jìn)出口貿(mào)易、農(nóng)民受教育程度、城鄉(xiāng)收入差距等因素都影響著糧食種植面積,為綜合度量各因素對糧食種植面積的影響程度,下文將建立指標(biāo)體系進(jìn)一步分析??紤]到數(shù)據(jù)的可得性,再參考現(xiàn)有文獻(xiàn)研究成果的基礎(chǔ)上,本文選取投入、產(chǎn)出及可持續(xù)發(fā)展三個方面的指標(biāo)建立有關(guān)糧食種植面積的指標(biāo)體系。為了更好的研究它們之間的關(guān)系,決定采用多元線性回歸模型、Bagging、m-Boosting回歸模型、支持向量機(jī)回歸、決策樹、神經(jīng)網(wǎng)絡(luò)等方法分別對其進(jìn)行分析,以期得到最有效的結(jié)論。
二、方法介B
在研究變量對變量的影響或變量之間的關(guān)系時,人們最先想到的是回歸,而線性回歸模型的前提假設(shè)較多且要求較高,所以現(xiàn)實數(shù)據(jù)是很難滿足這些條件,即使是滿足,還要受到其他因素的影響,近年來,隨著專家學(xué)者們對建模認(rèn)識的逐漸深入,再加上計算機(jī)技術(shù)的快速發(fā)展,出現(xiàn)了諸如決策樹、m-boosting等機(jī)器學(xué)習(xí)算法,這些算法模型在建模之前對數(shù)據(jù)沒有做出任何假定,使用的是諸如一致性、無偏性等概念進(jìn)行建模,能夠很好的解決多元線性回歸的不足,預(yù)測精度高,所以本文在建模中引入機(jī)器學(xué)習(xí)方法對糧食種植面積進(jìn)行研究。
決策樹(Decision Tree)是在已知概率的基礎(chǔ)上,通過計算預(yù)期的凈現(xiàn)值大于或者等于零的概率來評價某一項目運行的風(fēng)險。隨機(jī)森林是用隨機(jī)的方式建立一個“森林”,森林里面有很多的決策樹組成。Bagging與m-Boosting算法類似,區(qū)別在于Bagging訓(xùn)練集的選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨立,而m-Boosting訓(xùn)練集的選擇不是獨立的,各輪訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān)。神經(jīng)網(wǎng)絡(luò)本質(zhì)上是人腦處理信息方式的簡化模型。支持向量機(jī)(SVM,Support Vector Machines)有兩種功能,一是對數(shù)據(jù)進(jìn)行分類,二是對數(shù)據(jù)進(jìn)行回歸,目前主要用于對小樣本、非線性及高維數(shù)據(jù)進(jìn)行分類和回歸。
三、實證分析
糧食種植面積指標(biāo)體系的建立是從投入、產(chǎn)出及可持續(xù)發(fā)展三個角度出發(fā)的,投入是指種植糧食的成本,產(chǎn)出是指通過種植糧食獲得的收入,可持續(xù)發(fā)展是綜合考慮影響糧食種植面積的其他因素。具體的指標(biāo)選擇如下表:
其中:自然災(zāi)害成災(zāi)率=成災(zāi)面積/受災(zāi)面積;人力資本:受教育程度初中及以上勞動力
比重;農(nóng)業(yè)勞動力比重:鄉(xiāng)村就業(yè)人數(shù)占鄉(xiāng)村總?cè)丝诘谋戎兀晦r(nóng)業(yè)增加值比重=農(nóng)業(yè)增
加值/國內(nèi)生產(chǎn)總值。
數(shù)據(jù)來源于《中國統(tǒng)計年鑒2015》與《中國農(nóng)村統(tǒng)計年鑒2015》,時間維度為1990~2014年。糧食最低收購價格用稻谷、小麥和玉米的平均價格計算。由于我國糧食最低收購價格政策是從2005年開始實施的,故糧食的最低收購價格只有2005年之后數(shù)據(jù),2004年及之前的糧食最低收購價格用當(dāng)年糧食的最低收購價格代替。
在建模之前為了消除數(shù)量級和單位對模型精確性的影響,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,利用標(biāo)準(zhǔn)化之后的數(shù)據(jù)進(jìn)行建模,可以得出各種機(jī)器學(xué)習(xí)回歸方法關(guān)于訓(xùn)練集和測試集的錯判率,具體如下表2:
由上表可知,利用隨機(jī)森林建模所得的訓(xùn)練集與測試集的錯判率最低,分別為0.084與0.729,故選擇隨機(jī)森林回歸模型作為最終回歸模型。通過隨機(jī)森林回歸模型可以得到每個變量的對糧食種植面積的重要性排名,結(jié)果顯示農(nóng)業(yè)勞動力比重、農(nóng)業(yè)機(jī)械總動力、農(nóng)用化肥施用量、農(nóng)村居民家庭人均純收入和農(nóng)業(yè)增加值比重對糧食種植面積的影響排在前五位,其中前三名分別為勞動力投入、機(jī)械投入和資本投入,可以看到糧食種植的投入對種植面積的影響很大,排名第四和第五的指標(biāo)屬于地區(qū)經(jīng)濟(jì)發(fā)展水平,顯然地區(qū)經(jīng)濟(jì)發(fā)展水平對種植面積的影響也是非常大的。
四、研究結(jié)論
為了保障糧食安全,我國需要將增加農(nóng)民收入放在糧食保護(hù)政策的第一位。本文從投入、產(chǎn)出及可持續(xù)發(fā)展三個角度出發(fā)建立了糧食種植面積的指標(biāo)體系,并利用多元線性、Bagging、m-Boosting回歸模型、支持向量機(jī)、決策樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等回歸模型分別對糧食種植面積的影響因素進(jìn)行了分析,分析表明,使用隨機(jī)森林建模方法隨機(jī)森林準(zhǔn)確度最高。對影響因素的重要性進(jìn)行度量可以發(fā)現(xiàn),排名前五位的為農(nóng)業(yè)勞動力比重、農(nóng)業(yè)機(jī)械總動力、農(nóng)用化肥施用量、農(nóng)村居民家庭人均純收入和農(nóng)業(yè)增加值比重,可以得到糧食最低收購價對糧食種植面積有一定的影響,但其影響力低于農(nóng)業(yè)勞動力比重與農(nóng)村居民家庭人均純收入。
參考文獻(xiàn)
[1]王雙英,王群偉,曹澤.多指標(biāo)面板數(shù)據(jù)聚類方法及應(yīng)用――以行業(yè)一次能源消費面板數(shù)據(jù)為例[J].數(shù)理統(tǒng)計與管理,2014,01:42-49.
[2]蘭錄平.中國糧食最低收購價政策研究[D].湖南農(nóng)業(yè)大學(xué),2013.
- 上一篇:材料工程基礎(chǔ)
- 下一篇:水資源保護(hù)
熱門標(biāo)簽
相關(guān)文章
2工業(yè)焊接機(jī)器人應(yīng)用及發(fā)展趨勢研究
3工業(yè)機(jī)器人技術(shù)專業(yè)課程內(nèi)容重構(gòu)研究