描述性統計:針對單一變項做一個敘述的分析,例如客戶的性別、男女比例各占多少,又稱敘述性統計。在類別變項的部分會用百分比跟圖表去介紹;在連續變項的部分,可以跑出最大值最小值。
推論性統計:探討兩變項之間的關係,例如客戶的用餐行為與背景分析。
兩變項如果都屬於類別變項時,就要使用卡方分配。所謂第一個類別就是自變項,第二個類別就是依變項,就是結果變項。例如:甚麼樣的背景會造成用餐行為的不同。
如果是類別對連續變項,我們用的是差異分析,包含T檢定和ANOVA分析。
在作差異性分析(平均數檢定)時,組別超過兩組就要做ANOVA分析,作此差異分析時有個平均數假設:
- 獨立性:收集回來的資料,每個人反應的結果是獨立的。
- 變異數同質性:先去求每組變異數,去檢定不同組別變異數之間有沒有差異。
- 常態性:連續變項是理想常態分佈。
T檢定的統計量以T表示,ANOVA的統計量是以F表示。
如果是連續對連續變項,就用預測分析,包含相關和迴歸分析。
在向別人報告一筆資料時,通常要先介紹集中點在哪裡就要用到所謂集中量數,描述資料大概在某一點附近;那範圍究竟有多廣,這時就要以離差(離散)量數來說明。
常見的集中量數為
- 平均數,分為算術平均數、加權平均數。
優點:適合做代數演算,許多推論性統計都會用平均數做推論。且表達上比較容易有集中的概念。
缺點:如果資料有極端的存在,易受影響降低代表性。
- 中位數,把所收集到的數據依大小排序,找出最中間的數字為代表。如果樣本數為奇數,則選出中間兩數算出平均數。
- 眾數,出現最多次的數字,可以不只一個。
優點:中位數與眾數都是排序的方式,就可以處理有極端的資料。
缺點:做代數演算時,需要考慮極端值,較難進行演算。
※在常態分佈中,平均數、中位數、眾數,都會在同一個點。
離散量數
- 算群距,用最大值減最小值,就可以知道資料分佈範圍。好計算但因會受極端值影響且未考慮組間資料,有時無法反映出觀察者各種差異。
- 四分位差,如果擔心極端值影響,可用Q1, Q2, Q3四分位數,把Q3-Q1就是四分位差,等於是只用中間那一半資料。跟中位數一樣不會受極端值影響,但缺點為只用一半資料。
- 變異數、標準差,即每個點跟平均數的差異狀況,值越大就代表分佈範圍越廣(每個點跟平均數都離很遠)。標準差就是變異數的開根號,意思就是平均每個點跟平均數的差異有多少,也是可以形容資料分佈狀況。缺點為易受極端值影響。
- 變異係數,較少見,先知道就好。要先把標準差算出來除以平均數乘以100,看標準差在平均數比例的分佈範圍。不用帶單位,可做不同變項之間比較。適用於比較變異的範圍有多廣。
在報告中,圖相較於表較容易表達重點的,但有些圖不容易畫,這時就需要表來做說明。如果圖表都不好弄,就只能選擇最差的選項用文字。
好的圖表包含四個重點:
- 畫面簡潔有力
- 內容豐富完整
- 重點突出明顯
- 帶領讀者發現趨勢跟模式(最難,通常帶領讀者一定要配合文字的介紹)
長條圖:比較分數的高低或組別的差異,通常用長條圖
圓餅圖:目的是要看比重上的差異,又稱圓形圖。
折線圖:要顯示一個資料的趨勢,會用折線圖。