Fw: [分享] 簡介數據(一)

作者: KDDKDD (KDD)   2016-06-17 02:30:27
※ [本文轉錄自 Elephants 看板 #1NOkj0v2 ]
作者: KDDKDD (KDD) 看板: Elephants
標題: [分享] 簡介數據
時間: Fri Jun 17 02:09:01 2016
前言
  因為不少朋友反應想了解更多關於數據介紹,因此這篇將主要介紹常見棒球統計
數據名詞(中職能算的)、公式或概念。本篇將分成以下架構介紹:
(1) 如何解讀數據、常見數據概念。
(2) 個別介紹每一項數據,並盡可能附上算法和概念。
如何解讀數據
  傳統數據多多少少存在一些盲點,例如主觀因素過重、比重不均、分析層面過於
粗略。為了解決這些問題出現了不少進階數據,大致上解讀數據可分以下幾個想法:
(1) 累積型數據和平均型數據有所不同。累積型數據是指球員上場時間愈多成績愈有
利,例如張正偉在2015年擊出140隻安打,這當然得有足夠上場時間才能達成;
而平均型數據是指將累績數據做進一步處理,例如張正偉2015年打擊率0.335,經
過處理後的數據在樣本數足夠下才能一起比較,例如2015年張正偉打擊率0.335,
王勝偉0.291。
(2) 樣本數是否足夠。當樣本數過小時,數據容易失真或變動性過大,因此大多數數
據均要求一定量的樣本數,對於樣本要求各方標準不一,常見的是打者要求平均
每場3.1個打數,投手要求每場一局。若樣本數不足時,建議看基礎數據表現即可
或另取合理門檻。
(3) 進階數據大多是經過迴歸分析而得到公式,其資料來源多數是以MLB過去資料為母
樣本做分析,雖然不一定完全適用在中職上,但多數數據具有一定參考性。
(4) 進階數據重視組距大於數字大小。這是解讀進階數據時大多數人的迷思,例如A球
員XR/27是6.12,B球員是6.37,解謮上會認為A和B球員是同一個等級,而不會說B
球員比A球員好,原因如同(3)所述,公式係數多數是經由迴歸得到的數字,只要
稍微改變一下變因就可能改變係數,因此以數字大小決定強弱是沒有意義。
(5) 部份進階數據是跟聯盟平均或底層球員做比較,例如WAR、WS等等。
(6) 多數進階數據數字愈高等級愈好,但也有少數數據是數字愈少愈好,通常以+號
表示前項,以-號表示後項。
(7) 貢獻值和能力值並不相同。貢獻值是指實際上球員提供多少成績給球隊,偏向結
論性質,通常上場時間愈多球員愈有機會提供更多貢獻值;能力值較具預測性,
偏向理論性質,實務上可能因受傷、被其他球員卡位等因素而無足夠時間和空間
,導致具高能力值選手卻無法提供高貢獻值。
(8) 雖然大多數進階數據會盡可能去除(降低)主觀因素,但仍然有可能會有缺陷,
評斷球員前建議多觀察幾項數據。
作者: lakersPOYU (poyu)   2016-06-17 02:34:00
作者: bear32147 (dogbear)   2016-06-17 02:37:00
作者: supersars (綠豆加薏仁)   2016-06-17 02:40:00
裡面不要有王勝偉,因為這不是爪板
作者: ji31g42go61 (誰是我)   2016-06-17 02:42:00
覺得像一種取捨:簡單易得或是考量周到。
作者: ararthur   2016-06-17 02:42:00
作者: ft090646   2016-06-17 02:52:00
裡面要有誰關你啥事 ZZZZZZZZZZZZZZZZZZZZZ
作者: KDDKDD (KDD)   2016-06-17 02:53:00
別吵架 重要的是分享
作者: kano2525 (斗六高國輝)   2016-06-17 03:09:00
剛考完統計學期末考,看到這篇頭有點痛
作者: indium111 (#ttyhg)   2016-06-17 06:02:00
推,不過半夜轉這種文章來是不會有太多人看的
作者: allenlee6710 (貓抓板!!!)   2016-06-17 06:55:00
不是張正偉嗎? XDD
作者: cuteyo921124 (cuteyo921124)   2016-06-17 08:54:00
喵迷這也要崩潰XDDD

Links booklink

Contact Us: admin [ a t ] ucptt.com