資料探勘的方式主要是以統計作為基礎,例如變異數、平均數等,衍生而來的如迴歸分析、分類等。底下示範Google Sheet中的常用統計數值與迴歸分析。
常用統計數值
這邊使用Google試算表(Google Sheets)來算出中位數(median)、平均數(mean)、眾數(mode)、標準差(Standard Deviation)、變異數(Variance)。首先使用RandBetween函數產生50筆0~100之間的亂數。RANDBETWEEN(low, high)
low
- The low end of the random range.high
- The high end of the random range.
在Google試算表中,這五種數值都有公式可以使用:
回歸分析(regression analysis)
首先以隨機產生出來的天氣溫度來示範單變數,下圖是選擇十次多項式回歸的結果:
讀者可以試試其他回歸類型,如線性(Linear)等。接著來要使用UCI的資料集:Concrete Slump Test Data Set來示範多變數回歸。此資料集的前十筆如下:
使用十次多項式回歸的結果:
使用Google Sheet可以不用寫程式耶!但是多變數的分析好像.......
此文的Google Sheet範例在此。
沒有留言:
張貼留言