Re: [討論] DIP, LOB%, shift

作者: kylechen (kyle)   2015-06-03 23:26:58
※ 引述《nickyang (肌腱炎者少打字)》之銘言:
: 想寫這個很久了,剛好在話題上
: 這幾年有越來越多人在用FIP,也看到有人開始講LOB%,shift是一個比較新的趨勢
: 但是也值得了解。棒球統計這一塊美國人做得相當透徹,台灣很諷刺的是球迷對這
: 塊的了解往往比球團還要多。我認為這有兩個原因,第一是球團沒有動力。美國棒
: 球統計的發展跟MLB 的產值是高度相關的,贏不贏球差幾千萬鎂,那當然願意投資
: 了。台灣現在的趨勢看起來像是球場經營比贏球重要得多,所以球團缺乏動力投入
: 不管是棒球統計還是訓練或球探也是很自然的事情。
: 第二是語言跟資訊的門檻太高,受過高等教育的球迷比起科班出身的教練球員吸收
: 新知的能力跟管道都強上許多。這一點倒是可以透過翻譯跟介紹逐步改變的。
: 先講DIP,DIP是Defense Independent Pitching的縮寫。根據DIP 的理論設計出來
: 的數據,叫做DIPS,Defense Independent Pitching Statistics 。要再提醒一次
: 要用DIPS,要先知道DIP 在講什麼,就像是如果連失分跟責失分都分不清,又怎麼
: 能正確使用ERA?
: DIP 的起源在1999年Voros McCracken首先提出BIP ,Balls in Play,打進場內的
: 球—投手是沒有能力控制的。McCracken十六年前的這個論證從根本上改變了整個
: 大聯盟的生態。我個人認為,儘管他在質量上的產出不如諸如Tango等作家,而且他
: 的理論也得到很多後續的修正,但他是這二十年整個MLB 趨勢最大的推手。
: 要知道投手有沒有能力控制一件事情,一個最核心的驗證方法是年與年之間的相關
: 係數,Year over Year correlation。如果一樣數據是一個投手的能力,是這個投
: 手可以掌握的變數,那麼它年復一年應該要高度相關。
: Matt Klaassen在2013年做過1955-2012/ 2002-2012一系列投手數據的相關係數表格
: http://0rz.tw/RdTst
: 看看這兩個表格,找找亮點在哪。三振,保送,滾飛比,這些是投手相對可以控制
: 的部分。LOB%,BABIP,ERA,WHIP 就是拿來墊底的。換句話說,這幾個數據是整體
: 來看投手相對沒有控制能力的數據。LOB%是高是低,多數投手沒辦法控制,所以CC
: 的投手可以高度控制的三振,保送都沒有巨幅的衰退,LOB%卻遠遠掉到聯盟平均線
: 以下,幾乎可以斷言他今年至今確實很衰(LOB%後詳論)。
: BABIP,Batting Average on BIP,也就是球被打進場內後形成安打的機率,你也可
: 以看到多數的投手幾乎是沒有能力控制的。這是為什麼CC拿到CYA那年的BABIP跟他
: 減肥後球速成績都狂掉的2013年幾乎一樣。因為不管是有威力的CC還是沒了球速的CC
: 球打進場內之後會不會變安打幾乎是純粹的運氣。
: 為什麼沒有人像我們板友一樣,這麼聰明到拿同一年的各式數據去跟ERA 做回歸呢?
: 第一我們很清楚得看到,ERA 會高還是低,跟一個投手的能力關係相較其他數據小得
: 多,至於為什麼,不妨從ER的定義去想一想,ER本身是個絲毫經不起邏輯檢驗的數據
: 第二,當你知道同一年度的WHIP後,到底為什麼還需要回歸去求同一年度的ERA 呢?
: 都已經拿著溫度計在手上了,還到處收集濕度輻射風速去測量溫度,到底是什麼樣的
: 天才邏輯呢?
你講的這些 絕大部分都是正確的
但是你完全搞不懂 之所以要作這些數據的核心精神
就是為了預測未來投手失分上會有甚麼表現
每個球隊 要派一個投手上場 只有一個問題而已:
"他比其他投手更能幫我減少失分嗎?"
失分包含了自責跟非自責
排除非自責失分的數據就叫做ERA
為了這個問題 數據分析派試圖找出各種指標來分析
但如同你所說的 就因為棒球場上運氣的成份很大 許多指標都包含了運氣因素
所以這並不容易
正因為你目前看到的ERA可能無法代表該投手的真正實力
所以你想要預估他真正的ERA
並期待他未來ERA會朝該方向修正 所謂的未來 包含下一場 下一周 明年 後年..
正因為這樣 所以FIP故意設計成跟ERA一樣的型式
正因為這樣 所以每年球季結束 聯盟的平均ERA會跟FIP完全重合
正因為這樣 所以fangraph才會再FIP那一個數據上 加註跟ERA的差距
方便使用者預估在FIP體制下 該投手ERA會下修還上修
FIP本身開發的精神 就是用來預測投手未來的ERA
本身的精神 是一個投手在背後擁有平均防禦水準的球員幫忙 運氣不好也不壞
應有的ERA
摘錄如下:
Fielding Independent Pitching (FIP) measures what a player’s ERA would look
like over a given period of time if the pitcher were to have experienced
league average results on balls in play and league average timing
這也就是為什麼他的公式理面 會有一個聯盟平均constant 隨每年變動
結果被你講成完全沒關係的兩件事....
你完全搞錯的是 投手未來的ERA是我想要預估的"結果"
為了作預估 可以用WHIP 可以用FIP 你喜歡的話用K BB HR 都可
但不論是用哪種預估法 接下來就要問了
"該指標跟ERA的相關性如何"
我已經秀給你看了 FIP跟我們想知道的投手未來ERA 相關性很有限
也就是說 就算我用水晶球告訴你一個投手明年的FIP是4
依照他們的相關性 你大概只能說這投手的ERA明年會落在 2-6之間
媽呀 這是甚麼樣的預測啊? 可能是個賽揚 也可能是隻pollo?
這種程度的預測 我測球員的八字也可以得到相同結果勒
這也就是為什麼我說看FIP不如看WHIP (相關性較高)
但是WHIP有他的致命傷在 不過我既然支持他 當然是不會講出來
也希望你能夠找出他的致命傷 來攻擊我的論點
這才叫做討論
FIP為什麼如此不準
你知道嗎 一個投手低於三成的失分來自於被全壘打
相對於被安打還有其他因素的失分 被全壘打是較小樣本
因為安打運氣因素太高 就整組砍掉
試圖用小樣本去解釋整體行為 怎麼會有好結果呢?
還有 你有看當初DIPS的原文嗎?
投手未來被安打 跟現在被安打照相關係數來看是低度相關
被全壘打呢? 0.4
好啦 很勉強算中度相關啦 因為0.39以下才算"低度相關"嘛
即便你把安打失分整組砍了 只算全壘打失分
得到的FIP也一樣參雜了滿滿的運氣
卻引進了新的雜訊 就是我一直提到的 有些投手被全壘打失分較多 有些較少
最後結果是什麼 你也看到了
: 在McCracken發表他的研究結果,提出投手無法控制BABIP,進而排除BABIP可以更準
: 確的評估一個投手的能力之後,最大的質疑者來自棒球統計界的祖師爺Bill James
: Bill James在十六年前,就像某些人在十六年後一樣不相信被打進場內的安打投手
: 不能控制。但是在兩年的研究之後他公開的承認他找不出任何反駁的方法。
: 前面提到McCracken的登高一呼根本上改變了MLB 的趨勢,這十六年來DIP 已經成為
: 棒球統計界評估投手的主要方法。原本他宣稱的BABIP不受投手控制也得到一定程度
: 的補充跟修正。我列出我覺得比較主要的幾個
: 第一是FIP,Feilding Independant Pitching,Tango 根據BIP不被投手控制的精神,
: 用三振保送跟全壘打回歸出來的公式。所以就像有人舉例的,一個連續被打五支一壘
: 安打失分的投手,跟一個被打兩發陽春砲的投手,前者FIP 會是零,後者會直衝雲霄
: 很不直觀對嗎?很不公平對嗎?對棒球統計執著如Bill James一開始也不肯相信。但
: 是BABIP的結果擺在眼前,多數投手的的確確是不能控制,換句話說,不管是Kershaw
: 還是我們隊上的那個不叫Chris的今年炸得很慘的木匠,如果連續被打進場內五球,
: 會不會都變成安打而失分那是跟丟骰子沒兩樣的事情。
: 況且,就像板友提到的得分跟打擊率間並非線型函數(其實應該用上壘率,但我覺
: 得講出線型函數四個字已經很讓人感動了),連續五支安打的機率有多低呢?真的有
: 投手慣常的被連續打五支安打嗎?如果連BABIP高成這樣的今年的CC都還沒被連續五
: 支安打過,我們真的不用懷疑被連續打五支安打只是帶賽而已嗎?
你也不須要用五隻安打的case來掩護你對這方面的認識不夠了
連兩支安打 R就是一個非線型函數了 我前幾篇文章提的就是兩支安打的CASE
怎麼 一局出現連兩支安打 照你來看 也只是帶賽而已了 對吧?
期待你秀出數據來 告訴我們你偉大的LOB% 線性論
我都幫你想好名字了 就叫 8/10-80/100 定理 如何?
還有 我原文題到的 R是靠不斷的上壘來的 而不是打擊率 你可以去看看
不要再栽贓了 (不用太感動喔)
: 又,其實換個角度看,怎麼樣的投手會連續被打進場內五球呢?是每三個打席會三振
: 掉一個人的Kershaw連續被碰到五球的機會大,還是我們隊上的那個不叫Chris的今年
: 炸得很慘的木匠機會大?所以很會三振人的投手評價高,三振不掉的人投手評價差,
: 這難道不直觀嗎?
: 有些人對DIP 的精神有很深的誤解,以為DIP 跟延伸出來的DIPS是要把BIP的結果都
: 賴給守備(要賴也是賴給運氣吧!)但真正了解像Tango 怎麼處理DIPS就知道,DIP
: 不是傲慢的把不能解釋的東西「賴」給其他因素,而是謙虛的「只處理有把握處理的
: 部分」(題外話,這是為什麼我認為投手的fWAR比bWAR好得多的原因。)
我同意 如果你硬要把話說得好聽一些 就是你說的那樣
說的難聽些 就變成我說的那樣了
DIP的精神 我前面已經講過了 不再此重覆
: 也因為如此,DIP 的研究一直在想辦法去解釋那些還沒有把握處理的部份。
: 第一個重要的補充,是滾飛比。前面的表格我們可以看到,滾飛比也是投手最能控
: 制的數據之一。進而,滾球跟飛球成為安打的機率有顯著的不同,所以我們知道滾球
: 跟飛球各自有多少機率形成安打,我們知道投手滾球跟飛球的頻率是相對穩定而能控
: 制的,所以誕生了SIERA。同樣是根據「只處理有把握的部分」這樣的原則,把滾飛比
: 放進公式裡。
: 但是我不認為SIERA儘管有更多的變因,就是個比FIP好的數據。固然滾飛比是投手更
: 能控制的結果,但是滾飛球各自形成安打的比例呢?
: 第二個重要的補充,是前年在MIT的數據大會上被提出的內野高飛球IFFB。注意原本的
: BIP的定義,是指打進場內的球會是安打還是出局,跟守備有關,跟運氣有關,是不能
: 根據投手的能力預測的。但是IFFB,在這個定義下其實跟其他的BIP不一樣。在職棒這
: 個等級打出內野高飛球幾乎一定會被接殺,跟運氣跟防守幾乎沒有關係。所以如果一個
: 投手可以穩定的製造內野高飛球,那麼原本的FIP就會低估他控制比賽的能力。
: 第三個重要的補充,是xFIP。從前面的YOY corr表格我們可以看到飛球的比例是投手
: 相對可以控制的,但是HR/FB卻不是。所以跟SIERA類似,xFIP把HR/FB (注意不是FB%)
: 替代成聯盟平均值重新計算FIP。但也因此這跟SIERA有類似的疑慮。
: 另外有一些必須小心的部分。FIP 跟所有的DIPS都承認自己只解釋能夠解釋的部分,
: 所以不能解釋的部分,是不是一個投手的能力,嚴格來說那是未知的。從整體來看,投
: 手沒有能力控制BIP,但那是不是代表沒有個別的投手可以控制?那是不知道的。在IFFB
: 被注意到以前,大家以為Matt Cain是那個例外。現在我們可以解釋他了。但是還是有像
: Tom Glavine這樣的例子,有人嘗試提出好球帶之類的解釋,但還沒有共識。
: 任何以過去預測未來的方法,首要的前提是環境要穩定。如果明年球換了,投手丘變
: 高了,或者像是聯盟轉換,這都會破壞原先的假設。舉例來說,BIP的觀察是不管壘上
: 有沒有人,對於BABIP不會產生顯著的差異。但那是對MLB 的等級而言。會不會在某個
: 小聯盟野手經驗不夠,特別容易緊張而犯錯呢?會不會某個投手的固定式比開放式威
: 力差距之大足以影響打者擊球的難易度呢?
: 這種針對整體的結論要應用到個別的球員身上的時候都需要格外的小心。這是為什麼
: 我不認為可以光用FIP或者xFIP去斷言CC現在的成績單純只是運氣不好。有沒有可能他
: 現在的投球型態就是BABIP會比別人高?這是有可能的,但至少現在沒有人能提出有說
: 服力的解釋。
: 那該怎麼辦?
這段我非常同意你的說法
: 有人一直在棒球板質疑整天說樣本太小,那是不是樣本太小就不用預測了?這個問題
: 的答案其實很簡單啊,樣本都這麼少了,你就看球啊XD CC的前三場球在洋基球場右
: 外野被打了兩支過牆,在綠色怪物被打了一支過牆,這三球在任何其他球場都只會是
: 小鳥飛(頂多一支變二壘安打),不過就是三場比賽,你有看球的話還需要什麼FIP
: 來告訴你他失的分很冤枉嗎?當樣本大起來了,慢慢人腦記不住所有play了,那也差
: 不多是可以用數據來看的時候了。
: 其他的之後再談。
其實你指的例子就直接證明了我的論點
FIP砍掉安打失分的部分直接原因就是因為認為安打的運氣成分太高
問題是全壘打也是滿滿的運氣 所以得到的幫助很有限
再加上飛球/滾球投手被打全壘打的機率不同 對FIP更是雪上加霜
全壘打相對於安打 就是個小樣本 也許CC今年只會被打30隻HR
3隻已經是10%
十年後你回來看CC 討論他的FIP
有誰還會記得 他那三隻運氣不好的被全壘打?

Links booklink

Contact Us: admin [ a t ] ucptt.com