變項:在統計的定義是,因為人事時地物而改變的項目。
間斷型變項:無法算出平均值的這種變項,也就是兩值之間不存在其他值,都稱為類別變項,原則上只要是文字這類。也就是間斷型變項。
連續型變項:如年齡,是可以算出平均數有意義的值。連續型變項通常都非常好判斷,舉凡身高、體重這種開放式選項,都可以算出一個平均值。
順序變項:數字有個大小但又沒有單位,但在實務的分析通常還是歸類為類別變項。
李克特量表:也算是一個連續型變項。雖然以一題一題來看還算是一個階段型的變項,但在實務上依舊會把像是滿意度這類的數據加成一個平均值或一個總分,讓他的數字變成是一個連續型的狀態來分析,所以我們一般遇到量表都還是把他歸類為連續型變項。所以一般在分析量表時不會一題一題的去做統計分析,可能會去稍微知道每一題的滿意度落在哪裡,可是如果做一些推論性統計的時候,我們會把他加成一個滿意度總分,然後用這個滿意度總分來做一個比較有意義的分析。
※但有個情況是選項出現例如5次「以上」,求出的平均值就不會是實際值,因為無法得知以上是多了多少,所以這類選項可能把它當類別或連續都有可能的。
在下結論時,一定要針對變項結果的可能性發生去下有利的結論。
分配:把變項的結果以及每種發生的可能性列出來。假設投一粒骰子,結果有六種變項,每種結果發生的可能性為六分之一,就會形成一個分配。
分配在統計上有90幾種,以下介紹主要的:常態分配(Z分配)、卡方分配、P分配、F分配。
常態分配:分配之母,有幾種分配都是由此去用公式發展出的。原始為丟銅板的理論。以丟四枚銅板來說,出現正面次數有:
出現正面次數 |
0 |
1 |
2 |
3 |
4 |
機率 | 1/16 | 1/4 | 3/8 | 1/4 | 1/16 |
後來發現,隨著丟的銅板越多,越接近下圖的曲線,後來這就被稱為常態分配。
圖片來源網址:http://web.ntnu.edu.tw/~495401049/map/7.htm
這條常態分配的特性,中間為最高點,且左右對稱,接著統計學家就去研究,發現平均數加減一倍的標準差,中間區域佔了68.26%,加減兩倍為95.44%,加減三倍為99.74。後來發現這條曲線可以套用許多情況。
所以之後有學者提出統計數據有提出平均數與標準差就大概可以估算範圍。
圖片來源網址:http://www.ambitec.com.tw/P01M260310_010.jsp?DFNBR=120
當然不是所有收集到的資料都會是常態分佈,有時會有偏的情況,比常態分佈瘦長,就定義為高峽峰,比常態分佈矮扁的,定義為低闊峰。
圖片來源網址:http://pub.mlc.edu.tw/viewitem.jsp?itemid=000000000132405
除了高度,有時也會有左右的偏離,如果曲線往左邊偏,定義為正偏態,也稱為右偏態,因為以最高點對下來,會發現右邊範圍面積較大,也就是大多數人在右邊。如果是往另外一邊就是負偏態,也就是左偏態。
中央極限定理:無論母體為何,只要抽樣的樣本數越大,這些樣本的平均數所形成的分配,就會很接近常態分配。
統計學家有定出一個顯著水準,就是一件事情錯誤的機率(p值)在5%內,這個結論就可信,這個機率的標準為α值,這個值是可以變動的,通常定在5%。比如像是醫學研究就會更嚴格。
檢定:根據統計方法,調查探討實驗結果與否,確認某種方法的正確性。
透過統計檢定,才可以得到p值,也就是錯誤率。要做推論性檢定之前一定要做假設檢定。
卡方分配: