Re: [新聞] 獨家/根本在誤導判斷!數學名師嗆:遊

作者: raiderho (冷顏冷雨)   2023-01-14 17:35:35
一些背景說明:
(1)
我沒玩過這個遊戲,
不知道遊戲合成/抽卡有無保底機制或機率隨次數遞增的機制,
還是永遠設定成 10%.
若是後者, 就是非常單純的二項分配,
當然很容易算出 227 或 175 次合成有成功多少次的次數。
但是, 很多遊戲有機率隨次數遞增的機制, 這樣就不好算了,
用模擬 (其實抽卡就是一種模擬) 配合統計推斷來判定是很合理的。
用一般方法對付簡單的特殊問題並沒有什麼過錯,
毋須糾結在此.
(2)
關於機率解釋:
(i) 抽卡人那麼多, 有人剛好很衰的機率.
(ii) 指定一個特定人物 (丁特), 他剛好很衰的機率".
這兩個是不一樣的.
(i) 機率當然比較大, (ii) 機率當然比較小,
而無論以直播情境還是對自己有利的情境, 丁特都可以根據 (ii),
當然遊戲公司可以主張 (i).
但是, 對於前者 (i), 遊戲公司也站不住腳...
我們不知道丁特抽多少次, 為簡化起見,
用遊戲公司宣稱的機率 q = 0.1 計算,
那麼, 在 (ii) 情境中, 175 中 4 次或以下的機率, 只有
\sum_{k=0}^4 {175 \choose k} q^k * (1-q)^{175-k}
這個機率大約是 7.04 * 10^{-5}, 十萬分之七,
對任何指定的人來說, 這數字很小.
然而, 假如台灣有 100 萬人 (高估) 在玩並且合成 175 次,
在 (i) 情境下, 這麼衰的人幾乎一定會出現,
(但那是不指定特定人物的情境, 和丁特的實況情境不一樣.)
另一種情況, 300 中 7 次或以下的機率, 只有
\sum_{k=0}^7 {300 \choose k} q^k * (1-q)^{300-k}
這個機率大約是 2*10^{-7},
若遊戲公司所言為真, 特定人物直播兩次, 都那麼衰的情境, 肯定不可能發生.
擴大到全遊戲玩家呢?
這裡我們簡化計算, 並對遊戲公司寬容一點,
底下的機率應該是最大的:
"假設機率為 0.1, 有 100 萬人合成 475 次, 當中有人中 11 次或以下的機率"
先說任何一個特定人那麼衰的機率是
\sum_{k=0}^11 {475 \choose k} q^k * (1-q)^{475-k} < 4.6*10^{-11}
記這個數值為 r, r 不到千億分之五, 非常小.
那麼, 全體遊戲玩家中, 至少有一個人哪麼衰的機率不超過
1 - (1 - r)^{10^6} <= 10^6 * r = 4.6*10^{-5}
這機率非常非常小.
在 (i) 的情境,
這種事情發生的可能性也不到十萬分之五,
遊戲公司根本站不住腳.
最後, 我們上面算的是
"給定虛無假設下, 這個出像或更極端情境發生的機率"
這個就是 p-value 的定義.
當然, 我們這裡沒有嚴格說明顯著水準 \alpha 是什麼,
但是無論是十萬分之七, 千萬分之二, 千億分之五, 十萬分之五,
都會低於我們通常使用的 \alpha (採嚴格標準 0.01 好了),
所以, 根據假設檢定的精神,
我們會拒絕虛無假設, 判定遊戲公司主張為假.
最後, 就這篇報導回一下.
我沒有興趣比對李祥的原始說法, 這裡僅轉述記者的報導.
※ 引述《lupin2401 (七巧寒璃)》之銘言:
: 「遊戲橘子」因紫布事件向知名實況主「丁特」提起民事訴訟,指稱丁特侵害其名譽和信用
: ,在雙方對簿公堂第2次後,數學名師「李祥」除了再次計算事件的發生機率,也接受《三
: 立新聞網》專訪,點出遊戲橘子聲稱「227次和175次是小樣本」根本在誤導判斷,直言「遊
: 戲橘子的律師數學該重修了」。
重點不是在 227 / 175 是大樣本還是小樣本,
而是這個樣本數量已經足夠我們做統計推斷.
李祥的說法不夠精確, 但他在此可能只是回應遊戲公司的辯解, 不用深究.
: 第一次直播,丁特合成紫布(《天堂M》虛擬寶物)175次僅成功4次,第二次直播則是300次
: 成功7次,共計475次成功11次。這樣的結果讓丁特開始質疑韓國原廠在記者會上脫口的「所
: 有製作、抽卡機率與台灣相同」是否屬實,不料卻遭遊戲橘子送上被告席,指稱丁特侵害其
: 名譽和信用。
: 事件起初,李祥老師以175次成功4次的樣本進行「假設檢定」計算,整面黑板的算式和圖表
: 證實10%的機率在被拒絕的區間,並寫下「有足夠證據去推論遊戲中獎機率<0.1」的結論。
: 該次計算在顯著水準α=0.05的情況下,判斷系統所提供的10%的機率是否正確,以這175次
: 的測試結果來說,發現無論系統提供的是10%還是5%的機率「均在拒絕區域內」,故推論系
: 統標示有極高的機率是錯誤的。
以上我認為沒有問題.
先前計算是就系統提供 10% 來看,
假如合成機率是 5%, 情境 (ii) 的三種 p-value 會變成
0.05940 (特定人物某次直播合成 175 次, 只成功 4 次或更少),
0.01597 (特定人物某次直播合成 300 次, 只成功 7 次或更少),
0.00241 (特定人物某次直播合成 475 次, 只成功 11 次或更少),
後面兩個數值會小於通常認定的 \alpha = 0.01.
然而, 這不是太小眾的遊戲,
上面的機率都不夠小, 情境 (i) 這麼衰的人肯定會出現.
只是在丁特的例子就是情境 (ii).
: 李祥老師強調,相對次數機率為大數法則,實驗次數越多,越能接近系統機率,雖然相關文
: 獻並沒有嚴謹的數理證明能夠判斷「多少以上為大樣本,多少以下為小樣本」,但遊戲橘子
: 卻直接指證「227次與175次是小樣本」,實乃誤導判斷。
: 無論系統機率為何種分配,根據中央極限定理,當「樣本數達到30或50以上」時,分配皆會
: 接近常態分配,則機率實驗與數學計算皆是在假設系統為常態分配下實施,李祥老師認為並
: 無不妥。
這裡不妥之處有兩點:
(1)
中央極限定理是用在抽樣的 "均值" 分配, 好習慣是把統計量說清楚.
(2) 中央極限定理並沒有說樣本達到 30 或 50 以上
這已經是積非成是. 中央極限定理只是說,
獨立抽樣的樣本越來越大, 樣本的均值分配 (經標準化後) 漸近於 (標準) 常態分配.
用簡單的模擬就可以看出, 就算 n 很大 (例如 n = 500)
就連簡單的二項分配,
https://www.youtube.com/watch?v=WYybcCXm2YE&t=1370s
其均值分配也未必 "看起來像" 常態分配.
實務上, 中央極限定理常常是統計推斷的判斷依據,
樣本數越少,
統計推斷越粗糙 (信賴區間越大, p-value 越大, 越不容易拒絕虛無假設),
僅此而已, 並非無法做什麼事.
"樣本數多少合宜" 並沒有一定標準,
是要看你根據什麼假設, 以及這些樣本的哪些統計量做什麼統計推斷.
而只要有抽樣, 就算很少的樣本已經可以做一些有趣的估計.
例如, 就算只從母體獨立抽 5 個樣本,
已經可以推斷:
母體的中位數, 已經有93.75% 的機率會落在這 5 個樣本的最大最小值之間.
(1 - (1/2)^5*2 = 0.9375.)
: 他直言,重點不是做過幾次實驗,而是實驗的樣本數,樣本數只要夠大,做一次就夠了,樣
: 本數很小,做多少次都一樣。
這裡也非常不妥. 李祥說的應該只是 "小樣本的均值分配" 可能很不像常態分配,
但是我前面說了, 樣本小固然很容易不像, 樣本大也可能不像,
像不像只是一種視覺標準, 實際上要看怎麼使用資料, 怎麼做統計推斷.
分三點來說:
(1) 你可以每次實驗只抽一個樣本, 樣本數已經是最小的 1 吧,
做 475 次實驗, 還是可以用中央極限定理,
因為每次實驗每次抽樣都是同樣母體的獨立抽樣.
(2) 我們前面計算合併 "175 中 4" 和 "300 中 7" 得到 "475 中 11",
其實是一種加權算法, 能這樣算大家也都覺得沒什麼不行,
實際上也是合理的, 理由同 (1).
(3) 實務上很多情境, 例如特別是醫學研究, 其樣本數很可能非常少 (常常不到20),
縱然如此, 單一研究還是可以做出一些推斷, 只要效果夠強, 可以拒絕虛無假設.
(雖然信賴區間很寬, 但足夠偏, 會讓虛無假設的值不再裡面.)
而學術社群也經常使用 meta analysis,
可以綜合一堆獨立的小樣本研究做出更強的推斷.
但這裡涉及的不只是中央極限定理,
也不只是傳統假設檢定的觀點,
例如貝氏學派就很適合做這類探討.
: 如同前段所述,雖然沒有相關文獻能明確指出大樣本和小樣本的定義,但所有的大專統計學
: 課本,甚至是國家考試的題目,皆遵循「樣本數30或50以上可視為大樣本」的原則,比起隨
: 口說說的巨大規模次數與小規模次數的主觀認定,他笑稱「遊戲橘子的律師數學該重修了」
: 。
李祥對中央極限定理的認知、以及很多統計觀念都需要修正.
: 5.完整新聞連結 (或短網址)
: https://reurl.cc/NGeL2e
: 6.備註:
: 法官知道中央極限定理嗎?
另外, 不要以為法官都是法匠,
1968年的美國法官的判例:
https://www.facebook.com/story.php?story_fbid=317036887094067&id=100063632744026
這裡的邏輯和數學分析打趴大多數人。

Links booklink

Contact Us: admin [ a t ] ucptt.com