Friday, February 24, 2006

Brief Description of Some Stats (1)

現今棒球統計的趨勢是,球場上發生的所有事件,其造成的影響都轉換成用「得分」(Runs) 這個數據來表示,最重要的原因是為了能夠在同一個基準下比較各個場上事件的重要性。如果沒有一個共同的基準,我們就不容易比較各種事件對球隊進攻的貢獻,例如說,一個盜壘跟一個保送,哪一個會比較有利於得分?

現在最常被引用的攻擊數據可以分成兩大類,第一種是「線性」的,以 Pete Palmer 所發展出來的 Linear Weights 為代表;第二種當然就是「非線性」的,其中 Bill James 發明的 Runs Created 及其所衍生的數據,是所有棒球的進攻數據中最常被使用的。以下先對 Linear Weights 中估計球員得分貢獻的部分:Batting Runs 做個簡單的介紹。

「線性」指標的基本假設是,所有事件造成的總效應可以由個別事件效應的累加來表示,這套指標最基本的形式可以用下面的公式來表示:
Runs = (1B*a) + (2B*b) + (3B*c) + (HR*d) + (BB*e) + ...

其中 a, b, c, d, e 分別代表一壘、二壘、三壘安打、全壘打和保送的價值。除了安打之外,公式的後面還可以加入盜壘、盜壘失敗等其他事件,而各個事件會有不同的權重來表示對得分的貢獻。然而,我們要如何得知這些權重的值是多少?解決的方法是,我們統計實際棒球比賽中各種狀況的平均得分,然後可以得到在不同的出局數和不同的壘上跑者分佈下,進攻球隊的得分期望值 (Run Expenctancy)。下面列出來的是 Tangotiger 根據 99-02 球季所有比賽統計出來的結果
Empty 1st 2nd 3rd 1, 2 1, 3 2, 3 Loaded
no out 0.555 0.953 1.189 1.482 1.573 1.904 2.052 2.417
1 out 0.297 0.573 0.725 0.983 0.971 1.243 1.467 1.65
2 out 0.117 0.251 0.344 0.387 0.466 0.538 0.634 0.815

在建立這個得分期望值之後,我們就可以很容易地計算棒球場上各種事件對得分的影響。舉例來說,在無人出局無人在壘的狀況下,這一局的得分期望值是 0.555,若此時打者擊出一支一壘安打,得分期望值上升到 0.953,也就是說,這支 1B 的價值是 0.398;若是在一人出局三壘有人時擊出一壘安打,則得分期望值從 0.983 變為 0.573,所以這支一壘安打的價值就是 0.573-0.983+1(因為跑者回到本壘獲得了一分)=0.59。以此作為出發點,我們可以算出在各種狀況下,一支一壘安打的價值是多少,然後拿這個價值去乘以各種狀況的發生機率,就可以算出一壘安打的平均價值。同樣的,我們也可以藉此算出各種事件的平均價值。Palmer 在 70 年代時算出來的數字如下:
Batting Runs = (1B*0.46) + (2B*0.8) + (3B*1.02) + (HR*1.4) + (BB*0.33) + (SB*0.3) - (CS*0.6) - [(AB-H)*0.25] - (OOB*0.5)

最值得注意的是,Palmer 在公式中加入了出局對得分的「負」的貢獻,其中 OOB 表示 out on base。2004 年的 The Baseball Encyclopedia 中最新的公式如下
BR = (.47*H)+(.38*2B)+(.55*3B)+(.93*HR)+[.33*(BB+HBP)]+(.22*SB)+(-.38*CS)-[ABF*(AB-H)]

其中 ABF 表示每個出局的價值,對 2003 年的 NL 來說,ABF=0.28;但是在 1968 年的 NL,ABF=0.23。由於各個年代球隊攻擊力的不同,我們用下面的式子來估算 ABF:
ABF ={[.33*(BB+HBP)]+(.47*H)+(.38*2B)+(.55*3B)+(.93*HR)} / [AB-(LGF*H)]

其中 LGF (league factor) 用來表示不同聯盟的強度對出局的價值所造成的影響。除了 1884 年的 Union Association 中 LGF=0.8,以及 1914-1915 的 Federal League 中 LGF=0.9 之外,對其他的聯盟來說,LGF=1。更詳細的數據可以參考 Tangotiger 用 1999-2002 的比賽資料所統計出的棒球場上大大小小各種事件的平均價值

這個方法的優點在於計算方便,而且可以很容易地看出各個事件之間相對的重要性,例如說,一次盜壘失敗造成的損失大約等於兩次盜壘成功的貢獻,因此一個球員的盜壘成功率若是低於三分之二,對球隊的得分來說,其效應是負面的。我們也可以回答第一段的問題,一個保送的價值是高於一次盜壘的。

Linear Weights 的主要缺陷在於,各種事件的價值都是根據分數期望值算出來的結果,然而分數期望值會隨著年代和聯盟的不同而變動。例如說,在無人出局無人在壘的狀況下(也就是每一局剛開始的狀況),美聯球隊的期望值會高於國聯,21 世紀的球隊會高於 1970 年代。再者,分數期望值會隨著每支球隊攻擊力的差異而有所變化,甚至會隨著棒次組合的不同而改變。因此,使用 Linear Weights 來比較不同年代、不同聯盟的球員成績時,不能僅只套用一組各個事件的平均價值,必須做許多數值的微調。

0 Comments:

Post a Comment

<< Home