就是要叫白熊 作品

等會兒更新

    今天還是有點拉肚子,所以,晚一會兒更新,大概凌晨一點左右吧,到時候重新刷新這一章就行了。

    …………

    摘要:為了保證網絡安全,提出基於大數據分析的網絡安全風險挖掘與估計方法,選取hadoop平臺的map和reduce函數挖掘網絡安全事件關聯規則,將所挖掘關聯規則作為網絡安全事件特徵,將網絡安全事件特徵作為徑向基核函數的支持向量機輸入,通過訓練建立網絡安全風險估計模型,並採用qpso方法的尋優性能搜尋支持向量機最優參數,實驗結果表明,該方法提升了網絡安全風險估計精度,對於防禦網絡安全風險具有重要的參考價值。

    關鍵詞:大數據分析;網絡安全風險;關聯規則;支持向量機

    1引言

    互聯網技術發展極為迅速,互聯網網絡環境具有較高的開放性,部分攻擊者利用網絡具有的不確定性以及多樣性攻擊網絡,嚴重威脅網絡運行安全[1-2]。以往的網絡防禦方法僅利用數據包中所包含信息獲取風險估計結果,所獲取風險估計結果準確率較低。為了保障網絡運行安全性,令網絡管理者實時明確網絡運行狀態,提前明確網絡安全風險,採用相應的防禦措施抵禦風險,是保障網絡安全運行的重要基礎[3-5]。目前眾多研究學者針對網絡安全風險進行大量研究。韓曉露與何春蓉等人分別利用直覺模湖集以及注意力機制評估網絡安全態勢[6-7],但網絡安全風險仍存在告警量過大以及由於數據量過大導致誤報率較高的缺陷。從海量網絡大數據中挖掘有用的網絡安全風險數據是網絡安全風險精準評估的關鍵。網絡存在攻擊行為時,將形成大量眾多類型的告警信息,提升數據挖掘難度[8],高效的大數據挖掘方法對於提升網絡安全風險評估精度極為重要。為此本文提出了基於大數據分析的網絡安全風險挖掘與估計方法,並對其性能進行了測試與分析。

    2大數據分析的網絡安全風險挖掘與估計方法

    2.1數據挖掘的關聯規則提取

    採集海量網絡數據中的安全事件,由於所採集網絡安全事件格式存在較大差異,需歸一化處理安全事件,便於挖掘其中所包含的關聯規則。利用所挖掘關聯規則分析網絡安全風險的相似病毒[9],相似漏洞等攻擊行為,提升網絡安全風險評估精度。利用大數據分析技術的數據挖掘方法提取網絡安全事件關聯規則。n}表示安全事件元素集合,r={r1,r2,…,rn}表示數據集,數據集r中所包含元素ri均為由w建立的集合,即存在riw。定義1:利用集合r內元素建立集合c,數據集內元素可滿足cri要求數量為l時,可得數據集r內集合c的支持度計算公式如下:(1)(1)定義2:存在集合idw時,利用表示c→d的置信度。所挖掘數據集合內可滿足最小置信度以及最小支持度的c→d即大數據挖掘方法所需挖掘的關聯規則。關聯規則通過挖掘事務集內頻繁項集合,獲取不同事務與事務間所存在的關聯規則。網絡安全事件具有規模量極大的特點[10],選取雲計算平臺hadoop平臺實現海量網絡安全事件關聯規則挖掘。大數據分析技術挖掘關聯規則分為兩部分:(1)挖掘頻繁項集,所挖掘頻繁項集應滿足最小支持度;(2)利用數據挖掘所獲取的頻繁項集挖掘滿足最小置信度條件的關聯規則。hadoop平臺利用map函數以及reduce函數獲取項目集子集以及綜合已獲取子集的支持度,通過分析全部子集支持度獲取所挖掘網絡安全事件中頻繁項支持度,挖掘網絡安全事件數據集中所包含頻繁項集。hadoop平臺挖掘關聯規則過程如下:將最小支持度β以及原始網絡安全事件數據集r作為hadoop平臺運算輸入;將可滿足最小支持度的頻繁項作為hadoop平臺運算輸出。map任務:(1)依據所輸入文件路徑利用最小支持度的頻繁項集分割原始網絡安全數據集為大小為n的數據子集,格式化處理所分割的各子集,獲取鍵值對,其中value與key分別表示數據信息以及字符偏移量。(2)將所獲取不同子集中的鍵值對依據map函數讀取,將數據信息value利用split函數解析,將解析結果傳送至集合內;(3)利用輸出key表示全部子集,設子集value值等於1;(4)調用全部可選的bin函數,全部map端在網絡安全數據中生成相同key值的鍵值對,通過bin函數合併全部相同的鍵值對,改善通過網絡將所獲取的鍵值對發送至reduce端造成運算效率低的缺陷;reduce任務:(1)排序bin函數所發送的鍵值對,合併相同key值的鍵值對,獲取,所獲取鍵值對利用re-duce函數讀取,累加鍵值對中l()內的值。網絡安全數據集r內key集合的支持數量,所獲取結果即reduce端具有頻繁候選項集的全局支持度;(2)將高於最小支持度的候選項集基於最小支持度發送至存儲數據外部表內,利用所獲取外部表查詢挖掘所獲取的頻繁項集,設置該頻繁項為mapreduce程序的輸入以及輸入相關文件。將最小置信度δ以及滿足最小置信度δ的關聯規則分別作為挖掘網絡安全事件關聯規則的輸入與輸出,運算過程如下:(1)選取map函數啟動setup法連接數據庫;(2)分割存儲數據所建立外部表內的頻繁項集,完成分割後獲取數量為n的數據子集,將全部數據格式化處理至鍵值對;(3)解析value內頻繁項集內元素,完成解析後獲取相應value值用(c,d,svalue)表示,將所獲取的(c,d)存儲至集合中;(4)求解頻繁項集內元素子集c,讀取元素子集c支持度sup(c),利用表示c→d的置信度。(5)當所獲取置信度高於已設定閾值時,所獲取的頻繁項集內部包含該子集外的全部元素與該子集存在關聯規則,利用所獲取差集與子集建立key值,該key值的置信度值即value。通過以上過程挖掘網絡安全事件關聯規則,利用支持向量機方法基於所挖掘關聯規則實現網絡安全風險估計。