01大數據資料分析原理

在介紹演算法之前,需要要先了解一般的數據分析的原理和需要準備的資料,要準備的資料第一件事情要因果關係,在學術文件中的定義是依照自變數引起的依變數的關係,要留意的是因和果的變化一定要有彼此的連動關係。而大數據界所用的數據內容一定要以下兩種欄位的因果資料:

• 特徵Features:因,在統計學稱之文自變數Independent variable
• 標籤答案Label :果,在統計學稱為依變數dependent vbariable

例如:天氣的濕度值(因,特徵)增加時,下雨的機率(果,標籤答案)就會提高。

 

而大數據需要有很多剛剛提到的因果關係的資料(Features和Label)並且大量就稱為數據集Dataset,其資料量最少100 個以上,能到數百或千萬的資料量,所求出的結果會更好,而這樣的數據集,要準備的二個的數據集,兩個數據集的欄位格式都是要一模一樣,並且需要用人工審查其內容的正確性,這兩大類的數據集分別為:

• 訓練用數據集Training Dataset:交給電腦透過特定的演算法,來找出特癥Features和標籤答案Label 其中之間的關係,有的時候比較複雜收據他的特徵值多個。
• 測試用數據集Testing Dataset: 測試用,用來驗證演算法所求出的結果其正確率為多少。

 

其資料的筆數大小,通常是80:20 的比率。接下來就是依照資料的內容分布形式,來挑選合適的演算法了。而大數據分析最重要的就是數據的蒐集,如果收集的數據是錯誤的,不管有什麼樣的演算法都找不到的答案喔!

 

舉個實際的案例:預測你家附近今天是否會下雨,就只要把過去同一個地點的濕度(特徵Features)和結果是否下雨(標籤答案Label),的資料記錄下來並用人工的方法一筆一筆的確認是否正確,收集到100筆,然後撥給訓練用數據集Training Dataset 80 筆, 剩下20 筆的給測試用數據集Testing Dataset,這樣就完成大數據得資料收集,接下來就能透過演算法來分析依照同一個地點,依照手上的現在或未來的濕度,來預測是否會下雨的機率。

TensorFlow
CH01 大數據資料介紹CH02 入門