統計基本概念Part2

描述性統計：針對單一變項做一個敘述的分析，例如客戶的性別、男女比例各占多少，又稱敘述性統計。在類別變項的部分會用百分比跟圖表去介紹；在連續變項的部分，可以跑出最大值最小值。

推論性統計：探討兩變項之間的關係，例如客戶的用餐行為與背景分析。

兩變項如果都屬於類別變項時，就要使用卡方分配。所謂第一個類別就是自變項，第二個類別就是依變項，就是結果變項。例如：甚麼樣的背景會造成用餐行為的不同。

如果是類別對連續變項，我們用的是差異分析，包含T檢定和ANOVA分析。

在作差異性分析(平均數檢定)時，組別超過兩組就要做ANOVA分析，作此差異分析時有個平均數假設：

T檢定的統計量以T表示，ANOVA的統計量是以F表示。

如果是連續對連續變項，就用預測分析，包含相關和迴歸分析。

在向別人報告一筆資料時，通常要先介紹集中點在哪裡就要用到所謂集中量數，描述資料大概在某一點附近；那範圍究竟有多廣，這時就要以離差(離散)量數來說明。

常見的集中量數為

優點：適合做代數演算，許多推論性統計都會用平均數做推論。且表達上比較容易有集中的概念。

缺點：如果資料有極端的存在，易受影響降低代表性。

優點：中位數與眾數都是排序的方式，就可以處理有極端的資料。

缺點：做代數演算時，需要考慮極端值，較難進行演算。

※在常態分佈中，平均數、中位數、眾數，都會在同一個點。

離散量數

算群距，用最大值減最小值，就可以知道資料分佈範圍。好計算但因會受極端值影響且未考慮組間資料，有時無法反映出觀察者各種差異。
四分位差，如果擔心極端值影響，可用Q1, Q2, Q3四分位數，把Q3-Q1就是四分位差，等於是只用中間那一半資料。跟中位數一樣不會受極端值影響，但缺點為只用一半資料。
變異數、標準差，即每個點跟平均數的差異狀況，值越大就代表分佈範圍越廣(每個點跟平均數都離很遠)。標準差就是變異數的開根號，意思就是平均每個點跟平均數的差異有多少，也是可以形容資料分佈狀況。缺點為易受極端值影響。
變異係數，較少見，先知道就好。要先把標準差算出來除以平均數乘以100，看標準差在平均數比例的分佈範圍。不用帶單位，可做不同變項之間比較。適用於比較變異的範圍有多廣。

在報告中，圖相較於表較容易表達重點的，但有些圖不容易畫，這時就需要表來做說明。如果圖表都不好弄，就只能選擇最差的選項用文字。

好的圖表包含四個重點：

長條圖：比較分數的高低或組別的差異，通常用長條圖

圓餅圖：目的是要看比重上的差異，又稱圓形圖。

折線圖：要顯示一個資料的趨勢，會用折線圖。