[心得] 社會菁英必備的數學素養 StarDog PTT批踢踢實業坊

[心得] 社會菁英必備的數學素養

作者: StarDog (泥娃娃) 2024-03-26 07:40:22

【書名】：社會菁英必備的數學素養
【作者】：奧利佛強森
【譯者】：劉懷仁
【出版】：天下文化
#podcast: https://open.firstory.me/story/clu4q4xzh00p701undyfb57uq/platforms
這本書的起源來自於疫情期間，作者以數學家的角度，
在網路上發表文章，幫大眾解讀疫情的統計數字是什麼意思，
我看完這本書以後不禁感嘆，如果我更早理解這些概念就好了。
統計數字怎麼看？
為什麼要做統計？因為現實中，我們不可能拿到每個真實數字，
所以我們利用一個小樣本的結果來推算總體的結果，
前提是這些小樣本要有足夠的隨機性與代表性，
這也是為什麼街頭的民調結果與真實結果相距甚遠，
因為街頭的訪問雖然隨機，但隨機的路人並無法代表台灣的人口組成，
自然就無法以這個小樣本的數據推算最後的結果。
既然是推算的結果，一定存在與真實數字的差距，
所以一個有效的統計報告通常會這麼說：
「信賴區間 95 %，誤差範圍 +- 3%」，
什麼是「信賴區間」與「誤差範圍」呢?
誤差範圍比較好理解，如果說統計結果是「某候選人支持度40%，誤差範圍 3%」，
就代表真實的數字可能介於43(40+3)% ~ 37(40-3)% ，
而信賴區間則是代表一個信心值，
因為統計樣本有隨機性，不同的抽樣，有可能得到不同的統計結果，
而信賴區間代表的是如果重複這個統計好幾回，有多少機率會包含真實結果，
如果信賴區間 95%，代表有 95%的機率包含真實結果。
信賴區間與誤差範圍會互相影響，
假設我們設定很大的誤差範圍，例如+- 10%，
我們當然會有極高的信賴區間包含真實結果，
但這樣的統計數字就沒有意義，
因為即使知道候選人的真實支持度有100%的機率落在30%-50%之間，
我們還是很難推測真實數字為何。
相反的，如果我們設定很小的誤差範圍，例如+-1%，但信賴區間只有50%，
代表有五成的機率39%-41%的範圍沒有包含真實數字，
這樣的統計數字一樣沒有幫助，
所以以後看新聞，如果看到一些聳動的統計數字，先別著急，
先看看這些數字後面的信賴區間為何。
疫苗到底有沒有用
我們用疫苗的例子來說明統計學的「虛無假設」。
新藥可不可以上市，來自於新藥的臨床統計數字，
假設我們已知 70 歲以上男人每年有1%的機率會死亡，
現在疫苗公司將新藥試用在 1000 名隨機挑選的 70 歲以上男人上，
發現僅有 5 人死亡，我們是否該核准該藥上市呢？
如果光看數字，原本根據統計，應該有10人會死亡，
現在使用新藥後降成一半，看來新藥效果很顯著，
但另一方面，我們知道 1%只是統計結果，不代表每年一定會死 10 人，
所以 5 人可能只是一個隨機的結果。
要怎麼判斷呢？統計學有個很重要的理論「虛無假設」，
意思是我們應預設新藥是沒有效的，
除非結果顯著不同，該結果產生的機率低於隨機產生的機率，
我們才足以推翻原本「新藥無效」的假設，
在統計學上，我們將該機率稱為 p 值，
當 p 值越小，就代表該結果越不可能發生，
如果真的發生了，就是我們假設錯誤，也就是我們可以推翻原本的虛無假設。
習慣上，我們常把 p 值設為 5 %，
如果低於 5%，我們就足以認為該結果不是隨機產生，而是有意義的數據。
回到新藥的例子，每年有1%死亡機率，1000 人中有 5 人死亡的隨機機率為6.6%，
還未低於 5%，因此代表我們的測試結果 5 人死亡很有可能只是一次幸運的隨機結果，
不一定是新藥帶來的作用，
然而 5% 的閥值沒有數學意義，只是約定俗成，
因此也不表示新藥一定無效，只是還未達到統計的顯著性。
普篩到底有沒有用?
讓我們試著用統計學來討論疫情期間大家爭論不休的一個題目：「要不要普篩？」
我們知道所有的檢測方式都不是100%準確，
我們用「特異度」來表示「沒有染病的人檢測結果正確」的機率，
用「敏感度」來表示「有染病的人檢測結果正確」的機率，
PCR 是疫情期間最可靠的檢測方式，
根據統計，PCR的檢測敏感度為 80%，特異度是 99.5%，
假設我們對 1000 名隨機受試者普篩，假設染病率為1%，
因此我們預期 1000 名受試者有 10 人確實染病，
因為敏感度為80%，所以有8人會被正確檢測出陽性，而2人錯誤檢測出陰性。
在未染病的 990 人中，正確檢測出陰性有 99.5% 的機率，
人數為 985 人，而錯誤檢測出陽性的機率則為 5 人，
所以我們會得到 13 個陽性結果，而真正染病的機率是 8/ 13 = 62，
這顯示在隨機普篩的結果下，即使是像 PCR 這麼可靠的檢測方式，
也會得出不可信任的陽性結果，僅僅六成而已，
因此我們應該可以理解為什麼當初政府一直沒有做大規模普篩，
因為錯誤的檢測結果會加重醫療系統的負荷，使真正需要醫療的人無法獲得幫助。
當時的政策是如果你有出現咳嗽發燒的症狀，再去做篩檢，
讓我們同樣用統計學來看看這麼做會帶來什麼結果。
我們假設有症狀的人，每 11 人有 1 人是真正染病的人，機率大約是9％，
因為只有出現症狀的人才會去做檢測，我們同樣假設是1000名受試者，
但現在染病的機率從原本隨機的1%變成有出現症狀的9%，
如果再一次計算檢測出陽性，且真的染病的機率會大大提升成93.5%，
這個方法得以上讓真正需要醫療的人獲得幫助。
檢視兩個方法最大的差別在於染病率，在大規模的隨機試驗中，染病率是可能不到1%，
而出現症狀的人染病率會大幅提升，
當染病率越高，就能讓檢測出陽性，且真的染病的機率大大提升，
所以普篩不是不能做，但前提是我們已知該病的染病率非常高，
檢測出陽性且正確的機率很高，
只要檢出陽性，我們就強迫病人隔離，限制病人活動是防疫的有效方法，
但政府在防疫的同時，也要考慮這些被迫隔離的人，無法工作，
將會損失收入，對社會經濟造成影響，
所以「要不要普篩」不只是一個統計問題，還是一個取捨問題。
要在全民健康與經濟損失中做個取捨。
感想
我們一路從小學開始學數學，一路學到大學，
可能有不少人覺得出了學校，這些數學根本用不上呀。
我覺得那是因為我們學數學的時候，很少跟現實的例子結合，
例如我們都學過斜率，給我幾個點，可以算出連結這些點的斜率，
但算這個要做什麼用呢？放到現實中，斜率可能代表感染速度，
根據斜率，我們就可以推算出未來的感染人數。
這本書不是在講數學理論，而是想要培養一個普通人的對數字的感覺，
難怪書名叫作「數學素養」，
看來以後我們不只需要文學素養，音樂素養，也需要來點數學素養了。

作者: applewarm 2024-03-26 10:33:00

統計學入門

作者: creative (創新) 2024-03-26 13:29:00

1F…..

作者: decorum (Festina Lente) 2024-03-26 18:49:00

書名翻譯實在糟糕從中文翻譯回去英語讀者八成以為作者是法西斯分子「菁英」在歐美民主社會是很不好的字眼

作者: DaNee (貓眼神的大白兔) 2024-03-27 21:42:00

其實高中數學學得夠好這本可以省下來

作者: psion (psion) 2024-03-28 10:21:00

如果內容只是這些頻率學派的東東真的別浪費錢了

作者: lemonno003 (悠) 2024-03-28 15:59:00

信心水準 = 信賴區間包含母體參數的機率

作者: owlonoak (深邃光輝) 2024-03-28 18:15:00

看標題就知道要講的是統計一看內文果然是我也覺得這個書名不妥這是大家都需要建立的觀念不分階級另外統計學的觀念是不是就等於數學素養我覺得這也有待商榷

作者: doris1016 (~DoR!$~) 2024-04-06 16:43:00

推

繼續閱讀

Readmoo 平台為什麼使用者體驗這麼差Sheepforpart [新聞] 紙本書不環保？環團調查：讀愈多次比godofsex Fw: [問卦] 微博熱搜：墨香銅臭回來了joanzkow [活動] 高雄讀書會徵人Dustee [新聞] 蔡志浩炎上被文化部停職顏擇雅直呼夢幻godofsex [贈送] 多本舊書blReader [分享] 蔡志浩：致謝與致歉...luciferii [分享] 余永寬合體了兩個事件luciferii [新聞] 黃清埕紀錄片與新書發表為藝術史留下珍Qorqios [新聞] 蔡志浩「只借書不買書」被下台許常德：godofsex