野村總合研究所(NRI,Nomura Research Institute)創新開發部高級研究員、IT分析師,日本政府「智慧雲端運算研究會」智庫成員。負責高端技術趨勢調查研究、供應商戰略分析、國內外企業IT應用調查,專業領域為雲端運算、商務分析、M2M、IoT等。著作包括:《雲端運算的衝擊》、《你不可不知的雲端運算常識與非常識》、《2012年版IT年鑒》等。
情報如此重要,許多人把失敗的責任歸責於錯誤的情報,或是缺乏情報。事實上,我們的四周充滿了大量的情報,只是一般人無法有效正確地辨識。例如珍珠港事件(Pearl Harbor Bombing)之前,已有一封緊急電報示警,但是這封電報遭人擱置,直到事件發生之後才譯出。有能力正確並及時辨識這些情報的人,小者被稱為福爾摩斯(Sherlock Holmes)或是柯南(名探偵□□□),大者就被稱為諸葛亮。在商場不見硝煙的戰爭中,情報更突顯出它的重要。今天我們開始擁有了處理這些大量資料的工具,更重要的是讀懂這些資料,把它們轉化成可用情報的智慧。正如我在 Facebook 上說過的(編按:全文詳見作者網誌〈IoT 和 Big Data 商機的迷思〉):
Big Data這個名字事實上是有點誤導。真正賺錢的,是從big data中萃取出來的 big intelligence。為什麼CIA叫作Central Intelligence Agency(中央情報局),而不是Central Information Agency(中央資訊局)或Central Data Agency(中央資料局)?而萃取information和intelligence的技術並不是現在才有的。隨便問一個有水準的資訊資工系教授,就會告訴你data mining(資料探勘)、neural network(神經網路)、pattern recognition(圖形識別)、statistical machine translation(統計型機器翻譯)、information retrieval(資訊萃取),...等等領域的歷史。這些才是困難而需要投資開發的領域,而不是一個簡單的大量儲存和平行運算系統。
我在2003年進入Google的時候,正是MapReduce初啟用之時。Google原本的Indexer是一套大程式,用了幾百台伺服器,要一個多星期才能完成工作。而中間只要有一台機器當機一次,就要全部重來。Google因此設計了MapReduce這套系統,主要目的在於容錯。將資料切成許多小塊,分到獨立的伺服器上處理。雖然機器數量增加到了兩千台,但中間不管怎麼當機都沒關係了。後來在論文發表後引出了Hadoop這個Open Source的軟體,給了想做大量資料分析的人一個很好的工具,也讓Hadoop在很多人心中變成了Big Data的同義字。但事實上Hadoop只是一個平行分散式資料處理的工具,真正能為資料創造價值的是上層的智慧分析。這些工具是讓資料分析師(以後是叫做「資料科學家」?)能把時間用在真正重要的工作「資訊萃取」上,而不只是打造所需的工具。想要靠 Big Data 做一番事業的人,絕不是只要學會了這些工具就可以了。
當讀者沉浸於以上個案的激盪時,別忘了第四章還有四個日本企業運用巨量資料的成功案例——小松(KOMATSU)是日本主要建築機械的供應商,其實在台灣的建築工地也不難看見小松的推土機以及怪手;小松的商業模式是租賃這些機械設備給營建商或是工務機構,因此,透過全球機械所不斷蒐集的相關巨量資料,已經可以用來推估設備維修的需求即將發生,以及給使用者燃料使用節省的建議做法等。瑞可利(RECRUIT)是家擁有各式各樣網路專門服務的公司,有求職、結婚、購屋網等,他們採用Hadoop技術,加上名為MIT(Marketing & IT United)的新組織,跨部門整合公司內部各單位,讓企業內部更有效地蒐集與分享利用巨量資料。此外,第四章也剖析日本遊戲公司GREE急速成長的原動力,在於「與其相信一人的判斷,不如相信數千萬人的資料」,他們稱為「資料驅動型營運方式」。第四章最後的日本麥當勞(McDonald’s Japan)案例,我在2009年就曾涉獵過,很佩服該公司仍持續發展個人化行銷的相關巨量資料,要達成「在現實世界實現一對一行銷」的願景。