[爆卦] 民調計算全詳解

作者: Psytoolkid (心理基德)   2023-11-19 17:29:20
下面會直接分析結果,當然有些分析實際上要有原始數據會比較好,所以算是偷懶概算。
那為什麼這次分析民調兩邊會吵成這樣,我只能說原因在於兩邊大概對統計都不熟啦,尤
民眾黨那場記者會,套用的誤差根本是連大一統計的程度都沒有,如果國民黨跟民眾黨在
吵誤差範圍時是用民眾黨呈現的誤差值在吵,那我只能說很悲哀。柯文哲整天說誤差3%就
已經體現他統計底子不夠了,結果朱立倫記者會也在回應1.5%的問題,兩邊完全搞錯民調
分析方法。
一、原始表格提到的誤差怎麼來:
首先要說,那個誤差計算適用的是白努力試驗,也就是答案只有支持或不支持、0或1的條
件下適用的。我已經算過了,就看圖吧:
https://imgur.com/LRgmD6w.jpg
這個公式計算的是在一個只有兩種結果的試驗下(例如拋硬幣只有正面或反面),其中一個
可能發生機率P(例如硬幣出現正面的機率)的正負1.96倍估計標準誤(也就是一直在說得
95%信賴區間的誤差),所以他只代表了你抽樣估計比率時的分配分散情形,不能直接拿來
代表計算跟其他比率做差異比較時的誤差。而且只適用N=1時的二項式分配(白努力試驗)。
順便講一下柯一直在說得3%誤差怎麼來的。你如果要做民調而且不知道母群理論上得比率
分佈(離如50%VS50%還是30%VS70%),這時候根據以上公式(只有在2選1民調適用,其他把
這概念用到所有民調上的,那都較做誤用),在還算符合經濟效益又有在最保守估計下可
達到還算可接受的誤差範圍就是3%,在最保守估計(P與Q代0.5時,便異數會是最大值)取得
最低需要人數只要1068人,便可以在民調上確定取得估計誤差介於-3%~3%的成果。
所以這個民調通說得3%本來就只是在考量經濟效益還可接受的人為選用的值他只代表你的
機率估計有多少機率包含母體真實機率,當然根據假設檢定的道理,脫離這個範圍的機率
你可以視為不屬於此樣本而認為差異顯著,但是這種判定是在判定一個個體是不是屬於一
個群體時適用,兩群體間的比率或平均數差異是要轉換的。
二、單問卷內差距分析:
從新聞上分享的資訊看來,大概可以推估問卷(沒看過或聽過問卷只能推測)
施測方式:一個受訪對象回答A題:柯侯VS賴,你選誰?,然後B題:侯柯VS賴你選誰?也
就是說A和B的回答屬於一種within subject的設計。而A題和B題內因為擇1,所以兩個選
項的比率來自不同人,但是你每一個問題內不管你分成多少候選人佔比,他
都是一個封閉的一組樣本,所以重點:1.所有人的回答對支持度的影響不會完全獨立,誰
多了其他人就少、2.一般的檢定方法包含Z檢定和T檢定(與區間估計一體兩面)都是估計兩
個樣本群體的差異,不適用在單題內侯柯/柯侯對賴的差距是否顯著。
然後,昨天民眾黨說國民黨提然後國民黨否定有提出的2倍議題,這個標準只
適用在一組樣本內只有兩個選項(Pvs1-P)的差異顯著性的判斷(像這次民調有兩個都沒支
持的也不行),完全不適用在A題和B題母數的比較,因為A題和B題的差值可以用兩個樣本
群體做計算。
如果真的要照民眾黨記者會公佈的先算跟賴的差距,再比兩種情境下的對賴差距
是否顯著(差距的差距),步驟應該如下:
1.將柯侯/侯柯的民調減賴的民調
2.透過以下公式計算差值的1.96倍標準誤:(統計一般來說,講到誤差值就是標準
誤的值
所以新聞吵什麼3%變6%還是說什麼3%誤差是指整個95%信賴區間的range,我只能說兩黨候
選人和幕僚都回去翻一下大一統計課本好嗎?2倍根本不適用而且誤差值也不是指信賴區
間的range):
https://imgur.com/8F1fv3t.jpg
為何用這個公式,請參考下面文章說明:
https://abcnews.go.com/images/PollingUnit/MOEFranklin.pdf
推導請看這篇:
https://reurl.cc/7MQboQ
https://imgur.com/yCbybRb.jpg
https://imgur.com/BLV7VRs.jpg
簡而言之,你如果在單一樣本內有三種以上分配的分配比例,你要計算兩個候選人的差異
應該考慮用多項式分配,避免誤用過於嚴苛的顯著標準(也就是純白努力試驗下的兩倍P
分配的估計標準誤。符合多項式分配的前提是取樣數相對整個母群很小的情況,例如這次
抽樣介於1000~2000左右,只佔全台0.01%內的人數,那原本是取後不放回的試驗可以當作
取後放回來看待,所以單樣本如果跟這次民意調查一樣有三組比例分佈,那可以透過多項
函數整合算出一個結果,根據這個前提可以透過考量共變數的公式將其中兩個候選人的差
異問題變回二項式範圍處理,計算出兩候選人民調差異真正適用的標準誤。
3.計算結果確認跟賴有達到顯著差異的再來執行兩種情境的差異比較:
https://imgur.com/VlxG9tE.jpg
https://imgur.com/SvV3Lo4.jpg
excel公式如下:
https://imgur.com/mUkXw8H.jpg
https://imgur.com/AVcqpWU.jpg
結果顯示兩種情境柯侯和侯柯對賴都有顯著差異,但是其實從差距的效果量來看就知道
柯贏比較多啦。
三、跨情境(跨題)對比
1.民眾黨差距的差距較正確計算:
https://imgur.com/wwtwfll.jpg
類似這張圖內在做藥物或處置效果對比的調整間接比較法,不過A題和B題各自內部差異是
單樣本的不同候選人支持度差異,而不是操弄組對控制組視為兩個樣本群體。
顯著檢定結果如下:
https://imgur.com/fvPKiT6.jpg
我是用獨立樣本t檢定計算,公式如下(如果是我假定的抽樣方法應該要用相依樣本t檢定
會比較適合,但沒原始數據,而我有兩種情境對賴差距的期望值和變異數,所以乾脆用獨
立樣本的作法試算,在視為獨立下分析還能顯著,其實相依的方式分析也可以顯著,當
然也可以用第二段靠估計的方法算共變)。其實柯幾乎可以當作輾壓。
兩獨立樣本差異t檢定公式:
https://imgur.com/Rv1QbPB
https://imgur.com/WS43GcS
Excel內公式:
https://imgur.com/od3mV1n.jpg
2. 聽說國民黨的計算方式:
好像就是類似單純比較法,不過這種方法很鳥啦,根本不用討論,完全無法反應兩種情境
對賴的差距。
建議:
1.其實檢定兩種情境的比例結構,應該可以考慮Chi square 改變顯著性的延伸:Bowker'
s test of symmetry。
2.明明其他項佔比超大,請不要隨意用binomial方法算誤差好嗎?
3.單樣本內不同候選人的支持度差異之標準誤計算早就有文獻在討論了,請多看。
4.題內比較一次再跨題比較,會遇到型一錯誤率膨脹的問題,應該考慮校正(此篇分析因
為懶也沒有做)
5.這種分析全部當作抽樣有代表性,但是看公佈出來的結果,兩種抽樣方法沒看到加權調
整的作法。
6.Confidence interval信賴區間實際上含意是指做無限次同樣抽樣方法和建構信賴區間
的方法,這些區間有95%機率會涵蓋到母數,簡而言之就是你對建構這個區間的信心,現
在常見的解釋「母數在這個區間的機率有95%」其實是反過來用,而且不一定牢靠,因為區
間一建構完,實際就只有包含或不包含母數其中一種情況,就像刮刮樂會宣稱中獎率,但
是你一但買了一張拿在手上,那張的結果就是確定的只有中或不中其中一個結果。

Links booklink

Contact Us: admin [ a t ] ucptt.com