為什麼疫情難以預測?『The Signal and the Noise』(信號與噪音)(精準預測)讀後感

如果只是簡單地把數據放入統計模型中進行分析,然後理所當然地認為這就是真實世界的最佳寫照,事情發展若真如此,那就好了

經濟學最為大眾知道的就是各種經濟指標的計算與預測,最大的調侃就是10個經濟學家有11種意見。我也一直存在疑惑,為什麼已經有這麼多數據了,計量模型這麼複雜了,為什麼經濟學無法預知到可能發生的金融危機?

然而似乎又不完全這麼回事,從電影大賣空(The Big Short)中可以知道並不是沒人注意到。

回到工作,在做數據分析時,過程中我也會不時產生疑問,訓練集這些變量合理嗎?是不是放太多不顯著的假變數會導致錯誤樂觀?有沒有少放了什麼關鍵變量?如果少放了,對結果會產生很大的影響嗎?

雖然這些疑問在統計學教科書都有解答,但我還是很疑惑,因為我記得當年的計量經濟學,在殘差不符合normal分配時,會做好多調整…結果又讀到XX理論表示,過多的調整轉換反而不一定比用原本的分配好(想不起來是什麼理論了…)

以上是自己在看書前的心理OS,雖然本書未能完全解答我的疑問,但閱讀過程中還是有許多收穫

大陸版翻譯:『信號與噪音:大数据时代预测的科学与艺术』
台灣版翻譯:『精準預測-如何在巨量雜訊中,看出重要的訊號』

不同領域的預測故事

雖說本來目的是想針對經濟學的,但書的前半部分還介绍了自然科學、社會科學等不同領域在預測上的故事,包括政治選舉預測、棒球比賽預測、天氣預測、地震預測、經濟預測、傳染病預測 (分別在ch1~ch7)

其中有的預測成功(例如天氣預測)、有的預測經常不準(例如經濟預測、傳染病預測)、有的甚至還無法有預測(地震預測)。

既然有預測成功的方法,難道其他學科不能比照成功的模型嗎?作者透過這些故事,描述了其中的主觀、客觀的因素如何影響預測,例如自我實現的預期、理性、效率市場、過擬合、數據質量等。

今年的武漢肺炎,網上也可以查到各種預測的模型跟新聞報導,例如預測傳播速度等,書的第七章<傳染性疾病預測:禽流感為何會突然爆發>,就有介紹了傳染病基本模型SIR模型,以及參考天氣預測方法的傳染病model:FERD模型,我想對於我這外行人已經獲得不少的知識了。

透過SIR模型與FERD模型,作者再延伸出一個主題:”模型越簡單越好還越複雜越好?”

這也是我覺得這本書有趣的地方,每個主題先透過故事,讓讀者把知識背景建立清楚,接著延伸出抽象的問題探討。

因果關係還重要嗎?

如果只是簡單地把數據放入統計模型中進行分析,然後理所當然地認為這就是真實世界的最佳寫照,事情發展若真如此,那就好了。

有了互联网大量的信息成倍增加,我們將進入一個母體等於樣本、參數等級統計量的時代,<啤酒與尿布>的經典故事告訴我們因果關係似乎沒那麼重要,有了幾乎母體的數據,我們不需要抽樣,關注的是相關性。

然而本書中提到了許多預測的例子,都是將相關性誤認為因果關係,將噪聲誤認為信號,在某些領域中,提出的假設更加接近於事實真相。而在其他領域中,對因果關係疏於考慮就會走入死胡同。

舉例,儘管經濟學家對於控制經濟運行的基本體係有著相當正確的理解,然而,經濟運行中各種情況的因果關係仍然模糊不清,在經濟泡沫期和經濟恐慌期時尤其如此,因為此時的經濟系統中充斥著人為因素決定的反饋環。(註:所以經濟學後面的發展,契約理論、行為經濟學才會越來越受到關注吧)

想要弄明白某種是因果關係,什麼屬於相關性,是很困難的,這也是預測之所以難做與此之所以重要的原因是一樣的:預測是主觀事實與客觀事實交彙的產物。就是為什麼預測經常出錯的原因。

結尾

歷史上最引人注意的正確預測來自英國天文學家埃德蒙·哈雷,他在1705年曾經預測,一顆巨大的彗星會在1758年回歸。曾經有很多人懷疑過他的預測,但彗星恰恰 就在1758年回歸了。在古代,彗星被認為上帝賜予的完全無法預測的事物,如今卻有規律且可預測的事物。

現今互聯網讓信息的動態傳播發生了變化。 ”大量的信息成倍增加,但有用的信息卻非常有限,信號的比例正在縮小,我們需要盡可能的對信號和噪聲進行區分。

數據分析第一步就是做數據清洗,而且可能60%時間都在這步驟,清洗質量的高低直接決定了數據中真正的信號比例大小及決定後續處理方式。

但對於如何區分信號和噪聲,書中其實也沒講出特別好的方法,當中看來還是很依靠人為判斷,再輔以Bayes定理改進。(如果不熟悉或是有點忘了Bayes,LeeMeng這篇文章特別好:從經驗中學習 — 直觀理解貝氏定理及其應用)

“一隻貓最好的模型就是一隻貓”,這句話的意思就是,所有模型都是這個世界的簡化形式。其他模型都會遺漏一些細節。這些細節是否關係重大,取決於我們試圖解決的問題究竟是什麼,還要看我們想要得到的答案有多精確。

關鍵是要記住,模型是幫助我們理解某一領域複雜性的工具,而不是取代整個領域

從事數據工作,最怕的就是成為調包俠、取數哥,那麼在基本skill能勝任工作的基礎上,如何更好地把數據能力賦予到業務上?快、好、準如何取捨?優先級的判斷、項目開展前風險點的評估、這些思考更需要的是對業務的理解、對問題本質的定位能力。也是自己必須持續加強的地方。

最後,滿推薦統計、資訊,乃至商業、社會科學、自然科學等領域有些基礎的朋友細讀,我想每個人都可以從這本書咀嚼出不同的韻味。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.