序
數位科技席捲世界帶來了大數據浪潮,但是,這三個字其實有一些誤導,讓一般人以為「大就是美」。其實在商管領域,大數據就是以證據為基礎的決策分析。更精準地說,「大」不是指用 4V 來描述的資料庫特徵,而是因為數據科技 (Data Technology) 進步,對多樣資料的「大用」。
在物聯網技術突飛猛進之下,數據量不可否認地遠遠大於以前。目前平常分析的資料表動輒「萬列千行」,因此如何從這些資料結構中提取資訊,「統計學 (Statistics)」和「資料探勘 (Data Mining)」就是關鍵技術。然而,我們不是為了大數據而大數據,大數據乃至人工智慧,都是為了支援決策。簡單地說,數據解析產生「預測」,預測解讀產生「決策」。數據解析的原理也只有兩個原則:「排序和分類」,所以一言以蔽之:「以排序來分類,從預測到決策」,就是大數據解析的核心。據此,本書副書名為「我分類,故我在」。
妥善的分類就可以產生可靠的預測,但是,當資料結構複雜時,排序乃至分類就沒有那麼簡單,所以需要利用演算法來處理資料,本書就是依此而生。例如:由分類的角度學習統計,統計學的預測以樣本期望值或條件期望值為基準,據之將資料劃分信賴區間,分類成「內 vs. 外」兩群,重點將不再是參數估計的顯著程度,而是預測表現和誤差分析。
全書分成 10 講,為筆者以大數據為名行走江湖的結晶,書中某些部分為在臺師大 EMBA 講授「大數據決策分析」的教材。每一講開頭皆以一個特定企業應用大數據的決策故事為開場,希望讀者能夠覺得不枯燥,同時也了解大數據的決策端,相當實戰且關鍵,沒有預測,都是紙上談兵。每講結尾都附上一個數據決策思考的方塊,從問對問題開始,一路引導至最後一英里路。案例用 R 語言的 GUI 和程式碼實作,但是,程式語言不是重點,而是對所預測對象的行為,有深刻的認識,勿忘 Domain Knowledge。
國立臺灣師範大學全球經營與策略研究所
何宗武