統計基本概念Part2

描述性統計:針對單一變項做一個敘述的分析,例如客戶的性別、男女比例各占多少,又稱敘述性統計。在類別變項的部分會用百分比跟圖表去介紹;在連續變項的部分,可以跑出最大值最小值。

推論性統計:探討兩變項之間的關係,例如客戶的用餐行為與背景分析。

ž   兩變項如果都屬於類別變項時,就要使用卡方分配。所謂第一個類別就是自變項,第二個類別就是依變項,就是結果變項。例如:甚麼樣的背景會造成用餐行為的不同。

ž   如果是類別對連續變項,我們用的是差異分析,包含T檢定ANOVA分析

在作差異性分析(平均數檢定)時,組別超過兩組就要做ANOVA分析,作此差異分析時有個平均數假設:

  1. 獨立性:收集回來的資料,每個人反應的結果是獨立的。
  2. 變異數同質性:先去求每組變異數,去檢定不同組別變異數之間有沒有差異。
  3. 常態性:連續變項是理想常態分佈。

T檢定的統計量以T表示,ANOVA的統計量是以F表示。

ž   如果是連續對連續變項,就用預測分析,包含相關迴歸分析

在向別人報告一筆資料時,通常要先介紹集中點在哪裡就要用到所謂集中量數,描述資料大概在某一點附近;那範圍究竟有多廣,這時就要以離差(離散)量數來說明。

常見的集中量數為

  1. 平均數,分為算術平均數、加權平均數。

ž   優點:適合做代數演算,許多推論性統計都會用平均數做推論。且表達上比較容易有集中的概念。

ž   缺點:如果資料有極端的存在,易受影響降低代表性。

  1. 中位數,把所收集到的數據依大小排序,找出最中間的數字為代表。如果樣本數為奇數,則選出中間兩數算出平均數。
  2. 眾數,出現最多次的數字,可以不只一個。

優點:中位數與眾數都是排序的方式,就可以處理有極端的資料。

缺點:做代數演算時,需要考慮極端值,較難進行演算。

※在常態分佈中,平均數、中位數、眾數,都會在同一個點。

離散量數

  1. 算群距,用最大值減最小值,就可以知道資料分佈範圍。好計算但因會受極端值影響且未考慮組間資料,有時無法反映出觀察者各種差異。
  2. 四分位差,如果擔心極端值影響,可用Q1, Q2, Q3四分位數,把Q3-Q1就是四分位差,等於是只用中間那一半資料。跟中位數一樣不會受極端值影響,但缺點為只用一半資料。
  3. 變異數、標準差,即每個點跟平均數的差異狀況,值越大就代表分佈範圍越廣(每個點跟平均數都離很遠)。標準差就是變異數的開根號,意思就是平均每個點跟平均數的差異有多少,也是可以形容資料分佈狀況。缺點為易受極端值影響。
  4. 變異係數,較少見,先知道就好。要先把標準差算出來除以平均數乘以100,看標準差在平均數比例的分佈範圍。不用帶單位,可做不同變項之間比較。適用於比較變異的範圍有多廣。

在報告中,圖相較於表較容易表達重點的,但有些圖不容易畫,這時就需要表來做說明。如果圖表都不好弄,就只能選擇最差的選項用文字。

好的圖表包含四個重點:

  1. 畫面簡潔有力
  2. 內容豐富完整
  3. 重點突出明顯
  4. 帶領讀者發現趨勢跟模式(最難,通常帶領讀者一定要配合文字的介紹)

長條圖:比較分數的高低或組別的差異,通常用長條圖

圓餅圖:目的是要看比重上的差異,又稱圓形圖。

折線圖:要顯示一個資料的趨勢,會用折線圖。

本篇發表於 統計分析。將永久鏈結加入書籤。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *

*

你可以使用這些 HTML 標籤與屬性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>