辛普森悖論:資料分析中的詭異反轉現象
在統計學領域,有個令人嘖嘖稱奇的現象——辛普森悖論。這個專業術語可能讓初學者摸不著頭緒,卻讓資深統計學家又愛又恨。它最神奇之處在於,能讓資料呈現出與事實完全相反的結論,而且從技術上來說,這個過程完全沒有造假。
讓我們用一個醫療案例來說明:假設你是醫生,正在評估某種治療方法的效果。資料顯示,無論男性或女性患者,接受治療的康復率都比對照組高。但詭異的是,當你把兩組資料合併後,治療效果反而變差了!這究竟是怎麼回事?
統計學家吉姆·弗洛斯特在其網站《吉姆的統計學》中解釋:「辛普森悖論發生在將子群組資料合併時,這個過程可能導致變數間關係的方向和強度完全改變。」這個現象最早在1899年被發現,但直到1970年代才以統計學家愛德華·辛普森的名字命名。
在當今資訊爆炸的時代,理解這個現象格外重要。有心人士常利用它來散佈關於COVID-19或疫苗的不實訊息,甚至操弄選舉結果。舉例來說,某地區明明藍黨得票數較多,但透過巧妙的選區劃分,竟能讓紅黨贏得多數席次!
弗洛斯特指出:「這個悖論通常發生在無意間忽略混雜變數時。最可怕的是,這種錯誤很容易發生!」混雜變數往往是你根本沒想到要考量的因素,比如在研究疫苗效果時,若忽略接種者的年齡和健康狀況,就可能得出完全錯誤的結論。
2022年就發生過真實案例:社交媒體瘋傳「接種COVID疫苗反而增加死亡風險」的迷因,因為資料顯示死亡病例中有六成是已接種者。但真相是:接種者多為高風險族群,經年齡調整後,疫苗其實能降低18.6倍的死亡風險!
2009年一篇研究論文警告:「辛普森悖論在實驗研究中的發生率難以評估,因為讀者很難發現未經檢驗或報告的資料問題。」建議透過跨研究比較來檢測可能的混雜因素。
弗洛斯特總結道:「辛普森悖論提醒我們資料分析的複雜性,強調深入研究資料而非接受表面結論的重要性。」他建議資料分析者要時刻保持懷疑態度,深入探究每個資料集,才能確保研究結果真實反映資料趨勢。