2018年5月6日 星期日

Google Sheets 的簡易資料探勘法

資料探勘的方式主要是以統計作為基礎,例如變異數、平均數等,衍生而來的如迴歸分析、分類等。底下示範Google Sheet中的常用統計數值迴歸分析

常用統計數值

這邊使用Google試算表(Google Sheets)來算出中位數(median)、平均數(mean)、眾數(mode)、標準差(Standard Deviation)、變異數(Variance)。首先使用RandBetween函數產生50筆0~100之間的亂數。
RANDBETWEEN(low, high)
  • low - The low end of the random range.
  • high - The high end of the random range.

在Google試算表中,這五種數值都有公式可以使用:







回歸分析(regression analysis)

首先以隨機產生出來的天氣溫度來示範單變數,下圖是選擇十次多項式回歸的結果:


讀者可以試試其他回歸類型,如線性(Linear)等。接著來要使用UCI的資料集:Concrete Slump Test Data Set來示範多變數回歸。此資料集的前十筆如下: 

使用十次多項式回歸的結果:

使用Google Sheet可以不用寫程式耶!但是多變數的分析好像.......