並不是蒐集一大堆資料就代表「企業成功數位轉型」?
近年來,資料科學、機器學習非常的火紅,大數據分析蔚為風潮。有人說網路時代,資料就是石油。因此,一些企業面對這個時代的挑戰,開始導入資料驅動商業轉型(Data-Driven Business Transformation)。
然而,只要蒐集大量資料,就能成功轉型嗎?企業所蒐集到的資料,是幫助企業飛上藍天的「石油」,還是鋪在地上讓車輾壓的「瀝青」?
資料科學數學模型的推論強度,取決於邏輯上最弱的假設
假設企業想要預測營收,因而蒐集了很多資料,包含客戶的背景、競爭對手的商品、國際政治的風險等等。其中有一組資料,比如競爭對手,變化程度非常劇烈,內涵很多不確定(Uncertainty)因子。其餘的資料變化幅度都很小,很適合拿來作預測。基於這些蒐集來的資料作的營收預測,最終還是會因為唯一那個不確定因子很大的變數所影響,導致預測的不確定性也很大。
當企業想要根據資料作任何決策時,該決策的信賴(Confidence)度,將取決於資料當中信賴度最低的變因。此時,如何提高資料的信賴度,將是一大挑戰。
模型無法解釋比自身描述之層級更深入的機制
使用同樣的範例,假設企業使用最小平方法迴歸(Least Squares Regression)分析資料後,發現國際政治的風險所對應的模型參數,幾乎等於零,代表國際政治的風險跟企業營收關係不大。此時,有辦法知道「為什麼國際政治對企業營收沒影響」嗎?
如果是使用最小平方法迴歸分析資料,通常是沒辦法回答上述問題。
像是最小平方法迴歸這種數學模型,只能告訴我們變數之間是否有關係,沒辦法推論為什麼有關係。如果需要更深入了解變數之間的機制,則需要別的模型,甚至需要蒐集相關的資料。
資料科學的數學模型只是重現資料
假設企業蒐集了很多資料,要來預測企業的營收。資料顯示競爭對手的商品數量,最少為0件,最多則跟本企業的商品數量一樣多。根據分析發現,本企業的營收,跟競爭對手的商品數量,剛好成反比。
如果有一天,競爭對手的商品數量,突然比本企業還多,該怎麼預測營收?
通常這種情況,數學模型所預測出來的結果,是不具有保障。因為數學模型基本上只是重現既有的資料,如果今天面對的問題,已經超出既有的資料,那就無法確保數學模型是否可適用。
對於簡單的問題,可能還可以用眼睛判斷出來。可是,如果企業想要用資料作複雜的決策,這時候如果預測的對象是否已經脫離蒐集到的資料,就會很難判斷
不是蒐集好資料,建立好模型,企業就會自然而然轉型
有很多蒐集來的資料,本身可能就沒有蘊含什麼太多資訊。此外,每一種數學模型都有對應的限制,不是建立好模型就可以解所有問題。正確掌握數學模型的知識,掌握建模的要點,避免使用數學模型的時候誤入陷阱還不自知,才能幫助企業在資訊時代轉型成功、脫穎而出。
本文節錄自:《資料科學的建模基礎 – 別急著Coding!你知道模型的陷阱嗎?》一書
作者簡介:
江崎貴裕
東京大學先端科學技術研究中心特任講師。
2011年畢業於東京大學工學部航空太空工程學系。2015 年取得同系所課程博士學位(因表現優異而縮短修業年限 1 年)與論文博士學位(工程學)。曾任日本學術振興會特別研究員、日本國立情報學研究所專案計畫研究員、日本國立研究開發法人科學技術振興機構PRESTO研究員與史丹佛大學訪問學者,自 2020 年起擔任現職。曾獲東京大學校長獎及井上研究獎勵獎等。致力於憑藉數學分析技術,解決統計力學、腦科學、行為經濟學、生物化學、運輸工程與物流科學等多重領域之問題。