極限思辨 ── 談球員被高估 (以NBA為題材)

如果要對題目進行進一步的分析或發揮,首先,我們得先定義何謂「高估」。

根據教育部重編國語辭典修訂本的釋義,「高估」代表著「估計過高,超過實際的情況」,而在教育部國語辭典簡編本「高估」則被釋義為「預期或評價超過實際的情況」。也就是說,在談「高估」之前,得先找出實際的情況,再將取得之評價與實際情況進行比較;若其高於實際情況是為高估、反之則為低估。其中,根據上方兩辭典,「實際」之釋義有 ❶ 真實的情形 ❷ 具體的、實在的 兩種,本文取前者作為全文中「實際」之釋義。



其次,我們討論如何得到「實際的情況」。換句話說,如何將球員在整個職業生涯或是某個時間片段的表現,包含可體現的各種數據以及無法直接以數據體現的領導能力、拚勁……綜合考量並量化為一具體數據以進行比較?

請繼續往下閱讀


為了回答上述問題,下方我以「語言學」為引子,切入「職業運動」層面,並與其進行對照和分析。

在現代語言學之父 Ferdinand de Saussure (索緒爾) 所著的 Cours de linguistique générale《語言學通論》一書中有兩個核心觀念。一是「signifiant 意符」和「signifié 意旨」之間的相應關係;二是兩者關係間所具有的「L’arbitraire du Signe 符號的專斷性」。語言的專斷性表現在意符的多元化,不同語言各有不同的意符,意旨的傳達取決於意符之間的差異,故每一種語言都自成一個自足的體系。若將前述觀念用在「discours 文學言談」上,就給予了每一個作家在共同的語言上,仍具有有限之專斷的可能。〔引用、改寫自高行健《靈山》序〕

同理,在試圖量化職業運動球員的表現作為一具體數據時,也會產生兩個核心觀念。一是「基礎數據 與 經計算後的進階數據」和「無法量化的場上作用」之間的相應關係;二是探討並試圖量化這兩者之關係所產生在主觀判斷上的專斷性以及系統性偏差。運動的專斷性表現在不同數據的多元化,不同運動各有不同的數據,而場上作用的探討亦取決於數據、賽事進行方式、獲勝方式等運動間本質上的差異,故每一種運動都自成一個自足的體系。然而,就如同在上段語言學討論中的「文學言談」概念,每一個將球員表現量化的數據處理者,由於涉及數據處理手法的不同以及主觀想法無法避免的帶入,同樣可能造成了專斷的結果。行文至此,如何將無可避免的專斷所造成量化數據與實境情況之偏差最小化成為待解的難題。

請繼續往下閱讀



舉世聞名的小說家 Gustave Flaubert (福樓拜) 曾經說過:「每一片樹葉都是獨一無二的。」球員也是如此,每一位都是該項運動的佼佼者,每一位卻又如此不同;量化成具體數據卻是要將這些相異處弭平,在異中求同的同時使量化數據產生可比較性。(在此,我暫且不提此量化數值之數值間距是否成比例關係等結構性問題,這些問題將留待下方「比較高估程度」的地方進行探討。) 回歸正題,由本段與前段論述可知,尋得絕對的標準是對於本文命題的最佳解;然而,考量到主觀以及專斷情況必然存在此量化過程中,試圖定義絕對標準是無解的。唯有透過提高樣本數、多方擬定量化方式並去除極端值的手段才能使量化之數據更趨近於實際情況。

請繼續往下閱讀

提到多方擬定與高樣本數,或許會直接聯想到「大數據分析」。可是大數據分析卻會衍生出:數據質量以及準確性不足、高度去脈絡化、主觀性及從眾效應、倖存者偏差、Simpson’s paradox(辛普森悖論) 等大量問題,使量化數據失真而不易察覺。因此,我認為採取「準大數據」的方式不僅可以有效解決各種前述問題,也能讓量化之數據更接近實際情況。



「準大數據」的理想化形式是取得至少數百位對於 NBA 有足夠關注之籃球專業人士(專業:指主要研究某種學業或從事某種事業),請他們在 cross-contextual(跨脈絡化)的前提下,以自己所能達到最客觀的角度將每位 NBA 球員的表現、忽略出席率的情況下以百分制表示(小數點後可接受有限小數或無線循環小數)。將每位球員前述百分制的數據去掉最高的 5% 和最低的 5% 後(避免極端值影響),將剩下的數據取算術平均數,此平均數即為利用「準大數據」得到最接近實際情況之量化數據。