10.15.2018

遠見華人精英論壇:<職棒數據的練習題>

從大聯盟全面採用Statcast(Trackman)系統之後,球場上的數據越來越豐富,而資料的開放性也讓更多人能夠嘗試進行分析。不過,就跟所有分析專案一樣,深入瞭解原始資料的正確性,試著除去數據裡的雜音,然後,不要先有定見再去找原因,都是很重要的步驟。
像是從投手分析來說,最常見的失誤就是拿Trackman系統跟舊的PITCHf/x數據做比較,像轉速在舊系統是用複雜公式計算出來的(那時候也只好硬著頭皮把它轉換成自己能用的算式),新系統卻能夠直接捕捉轉速,而前者的估計值與後者的實測值差別非常大。事實上,光是球場Trackman裝置位置不同,就能夠造成數值變異。而從去年到今年球季,Trackman的「微調」又造成奇怪的現象,幾乎所有投手球路的位移距離值都變了,所以就算是Trackman的資料,也需要除去這些雜音才能使用。
雖然說對分析工作有興趣的人,職棒數據是很好的練習,可是如果不知道環境因素,只看數字,就會做出錯誤的結論。
說到Statcast,有一項數字我跟大聯盟分析部門問了好幾次,不久前終於有結果——我覺得陳偉殷是大聯盟裡速度算很快的投手,可是先前公布的跑壘衝刺速度都僅限於野手,所以也無從證實,不過現在答案總算出現了:
在陳偉殷轉進國家聯盟的第一年,曾經出現過每秒26.4英呎的衝刺速度,這個數字換算成時速是29公里,在當年大聯盟投手裡面可以排第十三名。就算跟野手比較,他的速度跟好朋友外野手Nick Markakis一樣,也已經很不錯。
今年打擊能力提升,三不五時就擊出安打,不需要再冒險全力衝刺,沒有出現兩年前的跑速,不過輕鬆跑跑仍然是在投手的前段班。
為什麼我對這個數字特別有興趣呢?事情是這樣的,不知道哪裡來的自信,我曾經一度以為自己跑得比陳選手快,直到有一次自主訓練時看到他花七八分力衝刺的速度,才發現我需要停止幻想,好像應該拿上了年紀的Bartolo Colon當目標比較實際,哈哈哈哈。
不管怎樣,在處理數據時,不帶偏見地清理原始資料,驗證其中的正確性是很重要的步驟,不然就會是所謂「垃圾進,垃圾出」(Garbage in, Garbage Out)的結果,這個從電腦時代開始就存在的道理,在數據世界裡更是圭臬。
陳偉殷衝刺速度,圖表與資料來源:baseballsavant.mlb.com

沒有留言:

【彩虹】:Kacey Musgraves 2019

  【彩虹】收錄在Kacey Musgraves 2019發行的專輯,因為歌名的關係,很受到LGBTQ團體的歡迎,不過也因為如此,雖然是首鄉村歌曲,卻被不少保守的鄉村廣播電台視為禁歌。 她寫這首歌,本來也沒有特別的訴求,只是有一天看星座預測,上面跟獅子座的她說,「雖然事情看來很糟...