亚洲亚中文久久精品无码丁香,精品wwwwwww视频高清免费,全网最大色导航,亚洲永久ww

400-650-1086
首頁 > 最新資訊 > IT新聞 > 正文

淺談探索式資料分析 -- 從一個資安小故事談起

admin 2016-04-19 09:25:05 0

在上一次的分享中,藉由資訊圖表的幫助讓我們對于《巴拿馬報告》(Panama Paper)能夠快速又正確的掌握基本訊息,進而能夠開始展開對于資料的詮釋及應用——探索式資料分析(Exploratory Data Analysis,簡稱 EDA),就是運用視覺化、基本的統(tǒng)計等工具,來“看”一下資料;以期進行複雜或嚴謹?shù)姆治鲋?,能夠對資料有更多的認識。今天,就以一個資安小故事,讓我們演練一下在資料分析的方法論中,能夠讓你事半功倍的“探索式資料分析”。

故事是這樣開始的:

Data Genetics 的一位分析人員收到一封朋友寄來的笑話,信中宣稱“震驚全球的事實!世界上所有的信用卡 PIN 碼都被破解了!”——接著就列出了一連串從 0000 - 9999 的數(shù)字。(信用卡 PIN 碼其實就是一組四碼的數(shù)字密碼,在國外刷卡消費時作為認證使用,等同于我們在臺灣刷卡時的簽名這個動作)因為四碼的密碼就只有這一萬種組合,所以看到這種“廢文”般的笑話大多數(shù)人當然是一笑置之;然而,這引起了這位分析人員的興趣:短短的四個數(shù)字里面,哪些密碼是最容易被猜中的呢?

現(xiàn)在,讓我們跟著這個故事,演練在資料分析的方法論中,如何進行“探索式資料分析”:

一、資料收集

首先,顯然地 Data Genetics 不是信用卡或銀行單位、也不是專門攻擊這些單位的黑帽駭客;身為一個資料科學家,資料的取得是很重要的一環(huán);當無法取得原始資料或是完整資料、資料來源受到限制的時候,就必須做出假設,并根據(jù)這些假設取得合理的資料來源,透過適當?shù)娜印⒈平蚰M我們的研究對象。

在這個故事里,分析人員從各種已經(jīng)公開釋出、曝光或被揭發(fā)的數(shù)字密碼資料庫與資安漏洞中,過濾出共三百四十多萬筆的四碼數(shù)字密碼,并且假設人們傾向于在不同情境中使用同一組密碼,將這組資料集作為研究對象,試著從密碼組成的頻率去分析。

二、基本統(tǒng)計工具:敘述統(tǒng)計量

利用基本的統(tǒng)計工具,可以由組成數(shù)字的頻率直接知道哪一些密碼是最常被使用的,換句話說,哪些密碼是最容易被猜到的?

分析的結果,不意外地,老梗的“1234”、“0000”、“6969”等規(guī)律排列堆疊的數(shù)字組合名列前茅。但是,他同時也發(fā)現(xiàn)有些特別的規(guī)律:例如高居第六名的“1004”在韓文中的讀音接近“天使”(從這點我們也可以推測該分析人員使用的資料集有部分應該來自韓國)、還有第二十二名的“2580”看起來毫無規(guī)律,但是大家只要拿起手機或看看電話的撥號鍵,就知道原因了。

三、資料視覺化 v. s. 資訊圖表

即使是簡單的統(tǒng)計作圖,也能告訴你很多一眼看不出來的秘密。不相信嗎?讓我們來看看幾張讓你秒懂密碼內幕的圖表??

可以看到,“19”開頭的出現(xiàn)頻率確實明顯高過其他的組合(同時也看到疊字組合仍是萬年不?。?;再來看看所有“19??”的分布:

可能跟出生、或是生活中的重大事件有關,“195X”一直到“198X”的出現(xiàn)頻率遠遠高過其他年份,這點也符合直覺——會使用密碼的族群主要也是在這些年份出生的青壯年人口為主。

矩陣的視覺化一直是個強大的工具:以四字密碼作為範例,可以將其拆成前后兩組兩位數(shù)字的組成,將出現(xiàn)頻率描繪在一個 100 x 100 的矩陣中。

越偏白黃的顏色就是頻率越高的組合,偏紅黑色即是頻率低的組合。

透過矩陣的視覺化,我們其實能夠直接得到前面的圖表中呈現(xiàn)的資訊;換句話說,矩陣視覺化在同樣的篇幅中,提供了更豐富的資訊。以上面提到的“19XX”模式為例:

可以看到有一排很亮的直線,它代表了“19”開頭的這一排,可以跟前面的“19XX”分布圖做個對照,他們其實是說同一件事:可以看成是上圖的高度改成用顏色取代,變成了下圖的一條直線。

除了“19XX”開頭,其實只要是“1XXX”都是相對亮的區(qū)域;從矩陣視覺化可以很明顯看出界線;不需要另外繪製一張下圖這樣的相對頻率分布就可以清楚的指出來。

將矩陣做灰階處理后,也可以很輕鬆地找出“亮點”,把常見的數(shù)字組合標記出來。

花了不少的篇幅也介紹了幾樣工具,不知道大家有沒有什幺收穫呢?如果對于最后提到的矩陣視覺化有興趣的朋友,在這邊也推薦中央研究院統(tǒng)計科學研究所的陳君厚研究員于 2014 資料科學愛好者年會分享的《Collaboration with Statistician? 矩陣視覺化于探索式資料分析》,學習愉快!

堅信“Data Speaks Louder Than Words”,藉由資料科學(Data Science)將數(shù)學帶出象牙塔服務人群,期望讓數(shù)據(jù)驅動(Data-Driven)的觀念帶動各種商業(yè)模式的洗鍊。目前服務于以數(shù)據(jù)服務為核心的新創(chuàng)公司,擔任技術總監(jiān)。

文章來源:機房監(jiān)控 http://shfkmygs.com

售前咨詢

專線:劉剛 13911133352

E-mail:112417434@qq.com

北京金恒智能系統(tǒng)工程技術有限責任公司 版權所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.

法律聲明:未經(jīng)許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利!

電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML

智慧機房

在線體驗

CREATE·機房監(jiān)控 體驗端  用戶名:Admin    密碼:12345 點擊體驗
在線咨詢 電話咨詢