淺析網絡安全大數(shù)據(jù)分析

時間:2022-07-10 03:54:27

導語:淺析網絡安全大數(shù)據(jù)分析一文來源于網友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

淺析網絡安全大數(shù)據(jù)分析

一、網絡安全現(xiàn)狀及主要問題

當前移動互聯(lián)網、大數(shù)據(jù)及云技術等更新進程不斷加快,數(shù)據(jù)量成指數(shù)級增長,人們對于大數(shù)據(jù)時代下網絡安全的相關問題也越來越關注。信息技術創(chuàng)新發(fā)展伴隨的安全威脅與傳統(tǒng)安全問題相互交織,使得網絡空間安全問題日益復雜隱蔽,面臨的網絡安全風險不斷加大,各種網絡攻擊事件層出不窮。2016年,我國互聯(lián)網網絡安全狀況總體平穩(wěn),未出現(xiàn)影響互聯(lián)網正常運行的重大網絡安全事件,但移動互聯(lián)網惡意程序數(shù)量持續(xù)高速上漲且具有明顯趨利性;來自境外的針對我國境內的網站攻擊事件頻繁發(fā)生;聯(lián)網智能設備被惡意控制,并用于發(fā)起大流量分布式拒絕服務攻擊的現(xiàn)象更加嚴重;網站數(shù)據(jù)和個人信息泄露帶來的危害不斷擴大;欺詐勒索軟件在互聯(lián)網上肆虐;具有國家背景黑客組織發(fā)動的高級持續(xù)性威脅(APT)攻擊事件直接威脅了國家安全和穩(wěn)定。由于大數(shù)據(jù)網絡安全攻擊事件仍呈高發(fā)態(tài)勢,而且內容多又復雜,利用大數(shù)據(jù)分析技術特有的特點,為大規(guī)模網絡安全事件監(jiān)測分析提供計算支撐力量,并且對海量的基礎數(shù)據(jù)進行深度挖掘及分析處理,及時監(jiān)測發(fā)現(xiàn)網絡安全事件,實現(xiàn)對整體網絡安全態(tài)勢的感知。

二、大數(shù)據(jù)基本概述及分析技術

(一)大數(shù)據(jù)基本概述

隨著信息技術全面融入社會生活,整個世界的信息量正在不斷增多,而且增長的速度也在不斷加快。所謂的大數(shù)據(jù)是指無法在一定時間范圍內用常規(guī)軟件工具進行獲取、存儲、管理和處理分析的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。大數(shù)據(jù)的規(guī)模之大,其在獲取、存儲、分析等方面已經遠遠超出傳統(tǒng)軟件工具能力范圍,業(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征,分別是大量化,多樣化,快速化,價值密度低。

(二)HadoopMapReduce大數(shù)據(jù)技術

Hadoop除了提供為大家所共識的HDFS分布式數(shù)據(jù)存儲功能之外,還提供了叫做MapReduce的數(shù)據(jù)處理功能。HadoopMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念"Map(映射)"和"Reduce(歸約)",其來源于函數(shù)式編程語言或者矢量編程語言里的特性。Mapreduce是一個計算框架,其表現(xiàn)形式就是具有一個輸入(input),mapreduce操作這個輸入(input),通過本身定義好的計算模型,得到一個輸出(output),這個輸出就是最終需要的結果,計算模型如下圖所示:

(三)Spark大數(shù)據(jù)分析技術

Spark是一個基于內存計算的開源的集群(分布式)計算系統(tǒng),Spark非常小巧玲瓏,由加州伯克利大學AMP實驗室的Matei為主的小團隊所開發(fā)。使用的語言是Scala,項目的core部分的代碼只有63個Scala文件,非常短小精悍。由于是基于內存計算,效率要高于擁有Hadoop,Job中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,節(jié)省了磁盤IO耗時,號稱性能比Hadoop快100倍。Spark是繼HadoopMap-Reduce之后新興的基于內存的大數(shù)據(jù)計算框架,相對于HadoopMapReduce來說,Spark具有一定的優(yōu)勢。一是計算速度快。大數(shù)據(jù)處理首先追求的是速度。官方指出“Spark允許Hadoop集群中的應用程序在內存中以100倍的速度運行,即使在磁盤上運行也能快10倍”。二是應用靈活。Spark在簡單的Map及Reduce操作之外,還支持SQL查詢、流式查詢及復雜查詢,比如開箱即用的機器學習算法。同時,用戶可以在同一個工作流中無縫地搭配這些能力,應用十分靈活。三是兼容性好。Spark可以獨立運行,除了可以運行在當下的YARN集群管理外,還可以讀取已有的任何Hadoop數(shù)據(jù)。它可以運行在任何Hadoop數(shù)據(jù)源上,比如HBase、HDFS等。四是Spark比Hadoop更通用。Spark提供了大量的庫,包括SQL、DataFrames、MLlib、GraphX、SparkStreaming。開發(fā)者可以在同一個應用程序中無縫組合使用這些庫。五是實時處理性能強。Spark很好地支持實時的流計算,依賴SparkStreaming對數(shù)據(jù)進行實時處理。SparkStreaming具備功能強大的API,允許用戶快速開發(fā)流應用程序。而且不像其他的流解決方案,比如Storm,SparkStreaming無須額外的代碼和配置,就可以做大量的恢復和交付工作。隨著UCBerkeleyAMPLab推出的新一代大數(shù)據(jù)平臺Spark系統(tǒng)的出現(xiàn)和逐步發(fā)展成熟,近年來國內外開始關注在Spark平臺上如何實現(xiàn)各種機器學習和數(shù)據(jù)挖掘并行化算法設計。

三、基于Spark技術的網絡安全大數(shù)據(jù)分析平臺

(一)大數(shù)據(jù)分析平臺整體架構

本文提出了基于Spark技術的網絡大數(shù)據(jù)分析平臺,該平臺分為五層,即數(shù)據(jù)接入層、解析處理層、后臺分布式數(shù)據(jù)存儲系統(tǒng)層、數(shù)據(jù)挖掘分析層、接口層,整體架構圖如圖3。其中,數(shù)據(jù)接入層提供多源數(shù)據(jù)的接入。解析處理層負責對接入的多源數(shù)據(jù)進行解析。后臺分布式數(shù)據(jù)存儲系統(tǒng)層負責所有數(shù)據(jù)的存儲、讀取和更新的功能,提供基本的API供上層調用。數(shù)據(jù)挖掘分析層基于Spark等引擎,實現(xiàn)分布式數(shù)據(jù)關聯(lián)分析、特征提取、統(tǒng)計分析等安全事件挖掘能力,同時提供實時檢索與溯源能力。接口層為用戶可以查詢的功能,其中包括數(shù)據(jù)上傳、查看、任務的生成、參數(shù)設定等。

(二)網絡安全大數(shù)據(jù)分析平臺實現(xiàn)相關技術

表1網絡安全大數(shù)據(jù)分析平臺實現(xiàn)相關技術結語總而言之,當前基于大數(shù)據(jù)下的網絡安全面臨著越來越多的挑戰(zhàn),因此我們必須高度重視大數(shù)據(jù)時代下網絡安全問題,應對好大數(shù)據(jù)分析處理工作。本文從當前網絡安全現(xiàn)狀及面臨的問題出發(fā),淺析HadoopMapReduce和Spark大數(shù)據(jù)分析技術,提出基于Spark技術的網絡安全大數(shù)據(jù)分析平臺,實現(xiàn)對海量數(shù)據(jù)的快速分析,該平臺具有高效、高可擴展性,具有很強的適應性。

作者:陳平陽 單位:國家互聯(lián)網應急中心福建分中心

參考文獻:

[1]國家計算機網絡應急技術處理協(xié)調中心。《2016年我國互聯(lián)網網絡安全態(tài)勢綜述》。2016.04.19

[2]鄧坤?;诖髷?shù)據(jù)時代下的網絡安全問題分析?!墩n程教育研究:學法教法研究》,2016(18):15-15

[3]王帥,汪來富,金華敏,沈軍。網絡安全分析中的大數(shù)據(jù)技術應用[J]。《電信科學》,2015,31(7):139-144

[4]詹義,方媛?;赟park技術的網絡大數(shù)據(jù)分析平臺搭建與應用?!痘ヂ?lián)網天地》,2016(2):75-78