庫存狀況
「香港二樓書店」讓您 愛上二樓●愛上書
我的購物車 加入會員 會員中心 常見問題 首頁
「香港二樓書店」邁向第一華人書店
登入 客戶評價 whatsapp 常見問題 加入會員 會員專區 現貨書籍 現貨書籍 購物流程 運費計算 我的購物車 聯絡我們 返回首頁
香港二樓書店 > 今日好書推介
二樓書籍分類
 
什麼都能算,什麼都不奇怪:超級數據分析的祕密

什麼都能算,什麼都不奇怪:超級數據分析的祕密

沒有庫存
訂購需時10-14天
9789571349343
張美惠
時報出版
2008年10月30日
100.00  元
HK$ 85  







* 叢書系列:NEXT系列
* 規格:平裝 / 288頁 / 21*14.8cm / 普級 / 單色印刷 / 初版
* 出版地:台灣


NEXT系列


[ 尚未分類 ]









為什麼Google與亞馬遜比你更了解你的品味?
賭場為什麼不讓你繼續輸錢?
數學公式如何幫你找到另一半?
應徵工作時,你知道自己是因統計分析而吃了閉門羹嗎?

生活裡,數據無所不在,
決策只靠經驗與直覺,已不夠看,
在這個資料至上的社會,統計文盲絕無法成功──甚至難以生存。

數據+直覺+經驗=創意──聰明決策
這是個數據思考的時代。
這場數字革命,與其抗拒,不如參與。

「如今我們玩的遊戲名叫資料。
這本革命性佳作,不僅讀起來饒富興味,
也可能改變你的思考方式。」
──李維特,《蘋果橘子經濟學》作者──

舉凡醫生的診斷、下一代的教育、企業經營、政府組織、網站
──例如Google與亞馬遜便比你更了解你的品味──
這些新品種的決策者無處不在發揮影響力。
他們提出的預測精準到讓人咋舌。

你知道棒球教練即使沒有見過球員也能評斷他的潛力嗎?
你希望在購買機票之前預知票價會漲還是會跌?
簡單的公式為何比酒評家更能預估葡萄酒的品質?

這些問題,超級數據達人都有答案。
在這個方程式VS專家的美麗新世界,
蘊藏其中的利益與風險為何?
誰是贏家?誰是輸家?
如何善用超級數據分析以避免被操縱?

仰賴直覺進行決策的時代已然過去。
不論你是企業家、消費者或學生,
若想要超越群倫,在跨出下一步之前一定要先讀讀
《什麼都能算,什麼都不奇怪──超級數據分析的祕密》。

作者簡介

伊恩.艾瑞斯(Ian Ayres)

  計量經濟學家與律師,耶魯法學院教授(William K. Townsend教授席),耶魯管理學院教授。經常在美國公共電台的「市場分析節目」(Marketplace)擔任評論員,也是《富比世雜誌》(Forbes)的專欄作家。目前擔任《法律、經濟學與組織期刊》(Journal of Law, Economics, and Organization)編輯,已出版八本書,發表過上百篇文章。

譯者簡介

張美惠

  台大外文系畢,輔大譯研所肄業,專職翻譯。曾獲梁實秋文學獎譯詩組佳作,譯作包括《EQ》、《第六感官──愛的氣味:費洛蒙》、《破壞性情緒管理:達賴喇嘛與西方科學大師的智慧》、《沒有終點的旅程:努蘭自傳》、《Y染色體──男子漢的本質》、《Wealth 3.0──托佛勒財富革命》、《血、汗與淚水──人類工作的演化》、《為什麼要做愛?》、《大麻?草莓園?色情王國》、《瘋足球,迷棒球》(以上由時報文化出版),以及《國家公園之父》、《這就是男人》、《父母離婚後》、《RV親情新幹線》、《和好再相愛》(以上由張老師文化出版)。



推薦序/張邦昌
超級數據達人的超級任務

前言 超級數據達人崛起
棒球界的艾森菲特
美酒的真相
我為何挺身而出?
本書重點

1. 誰在幫你思考?
速配網彈新調
痛你所痛的哈樂賭場
告訴我你對我了解多少
消費者大反擊
讓人放心的迴歸分析
全世界是一個資料大礦場
聯想定罪
尋找神奇數字

2. 隨機創造你的資料
第一資本的隨機實驗
你看到的可能是隨機試驗的網頁
誰最具實用創意?
隨機試驗──用途無限寬廣
隨機試驗為何沒有更普及?

3. 機率治國
花錢才能省錢
州的構想實驗室
善用既有的隨機試驗
機率的世界

4. 醫生應如何看待實證醫學?
拯救十萬人
舊迷思陰魂不散
「查就好了」
未來即現在

5. 專家VS方程式
「讓人不安的小書」
人為何不擅預測?
何不兼取兩者之長?
我們還能做什麼?

6. 超級數據分析風潮為何在此時興起?
從九十到三百萬
資料交易
資料混搭
科技或技巧?
電腦能被教導和人一樣思考嗎?
「我們專門射火雞」
超級數據分析革命已經來臨
數位資訊潮

7. 故事愈來愈精彩
那老師算什麼?花瓶嗎?
帝國大反擊
地位之爭
你會向超級數據達人買二手車嗎?
艾波公司勇闖好萊塢
提防送禮物的超級數據達人
其他方式的歧視
資料全都露
洛特是誰?
假使算錯了呢?

8. 直覺(與專業知識)的未來
掌握未來的(女)人
將資訊濃縮在一個數字裡
民調領先的機率解讀
反向推理
波拉克的懷孕問題
結語

後記
資料採礦民主化
免費進行隨機試驗
發掘最有效的誘因
正在成形的趨勢

附註



前言 超級數據達人崛起

  艾森菲特(Orley Ashenfelter)酷愛美酒,他說:「上好的紅酒只要擺上幾年,便會發生奇妙的變化。」他不只是執著於酒的美味,還想要了解是什麼因素決定酒的等級。

  「當你購買一瓶上好的紅酒時,其實是一種投資行為,你預期以後可能會更好喝。換句話說,你要知道的不是紅酒現在的價值,而是未來的價值。即使你沒有要賣而是自己要喝,也是一樣。當你想著:『如果我延遲滿足,將會得到多大的樂趣呢?』這句話本身就是一個樂趣無窮的問題。」過去二十五年來,艾森菲特投入相當多的心力研究這個問題。

  艾森菲特的正職是數據分析專家。他利用統計方法從大量資料集裡擷取隱藏的資訊。身為普林斯頓大學的經濟學家,他曾研究同卵雙胞胎的薪水,以評估多讀一年書的影響;也曾經從美國各州道路速限的差異評估州政府如何評價統計學上的人命價值。多年來,他一直擔任美國重要經濟刊物《美國經濟評論》(American Economic Review)的編輯。

  艾森菲特身材長大,一頭濃密的白髮,聲音洪亮但親切,很容易成為一室的主角。他絕不是畏首畏尾的人,如果你以為數據分析專家都是溫吞、孤僻型的,他會很快讓你刮目相看。我看過他在教室昂首闊步,溫和但熱情地剖析一篇報告背後的邏輯。當他對某件事讚譽有加時,你可要注意聽了。

  真正讓他惹上麻煩的是透過數據分析來評估波爾多葡萄酒的品質。他不似帕克(Robert Parker)一類葡萄酒專家採取「含酒吐出」的品酒法,而是利用統計學找出葡萄酒有哪些特質會影響售價的高低。

  他說:「這其實很簡單,葡萄酒是一種深受每年氣候變化影響的農產品。」他研究法國波爾多地區數十年的氣候資料,發現收成時雨量少加上夏季平均溫度高,便能生產出最好的酒。一九五二至八○年的統計資料很符合勃艮地與波爾多的葡萄酒價格。

  當葡萄夠成熟且果汁濃度高時,波爾多葡萄酒的品質最佳。夏天特別熱的年份,葡萄夠熟,酸度自然降低。若降雨量低於平均值,葡萄的濃度便很高。因此,最高品質的葡萄酒多產於又熱又乾的年份。成熟的葡萄釀造出的酒比較柔和(酸度低),濃度高的葡萄則能製造出酒體醇厚(full-bodies)的美酒。

他很大膽地將這套理論化為下列公式:

  葡萄酒的品質=12.145+0.00117×冬季雨量+0.0614×生長季平均溫度-0.00386×收成季雨量

  沒錯,只要將任何年份的氣候統計數字填入,他就能預測當年度葡萄酒的一般品質。他還有更複雜的公式,可精確預測超過一百家酒莊的葡萄酒品質。他承認:「看起來似乎就是一堆數字,但法國一八五五年著名的分類法就是用這個方式為葡萄園排名的。」

  傳統的葡萄酒評論家對艾森菲特這種資料導向的預測法卻很不買帳。英國的《美酒》雜誌(Wine )說:「該公式之荒謬可笑不言可喻,根本不值一哂。」紐約酒商索科林(William Sokolin )指出,波爾多葡萄酒業者對艾森菲特公式的看法「反應非常激烈,近乎歇斯底里」。有些商會成員對他嗤之以鼻,有一次他到佳士得拍賣公司的酒類部門演講,坐後面的酒商公開噓他。

  帕克堪稱世界最具影響力的葡萄酒作家(也是《美酒鑑賞家》〔The Wine Advocate〕的出版者),罵起艾森菲特非常生動,稱之為「如假包換、百分之百的騙子」。艾森菲特則是全球最受尊重的計量經濟學家(quantitative economist)之一,但帕克認為他「根本是用原始的方法在評論葡萄酒,荒謬到可笑的程度」。他認為數學公式絕無法算出真正美味的好酒:「我絕不希望被邀請到他家品酒。」

  帕克說艾森菲特「就像一個從不看電影的影評人,光看演員與導演是誰便進行評論」。帕克的話不無道理。實際去看電影當然比較準確,那麼,實際去品嚐美酒,應該會作出較中肯的評論吧?但這裡面有個問題:你必須等好幾個月才能嚐到酒。波爾多與勃艮地葡萄酒必須先儲存在橡木桶裡十八至二十四個月,再裝入瓶中慢慢成熟。葡萄酒放入桶子後,帕克這樣的品酒專家必須等待四個月才能嚐到第一口─那時的酒還在發酵,挺難喝的。喝下如此難喝的新酒,真能準確預知未來的品質嗎?很難說。舉例來說,凱塞(Bruce Kaiser)曾任拍賣商伯得富(Butter.eld & Butter.eld )的酒類部門主管,他指出:「新釀的酒變化很快,沒有人─任何人都沒辦法─靠品嚐作出正確評估,至少得等十年、甚至更久。」

  反之,艾森菲特的作法是運用數據分析找出氣候與價格的歷史關係。他發現冬季的雨量每增加一公分,可讓酒的預期售價提高○?○○一一七美元。當然,這只是一個趨勢。但透過這個方法,他可以在葡萄剛採收時便預測未來的酒質─比專家嚐到第一桶酒早了幾個月,比成品售出時間更提前數年。在葡萄酒期貨交易熱絡的時代,他的預測讓美酒收藏家多了一分競爭力。

  一九八○年代末,他開始將他的預測刊登在半年發行一次的通訊《液體資產》(Liquid Assets)。剛開始,他在《美酒觀察》(Wine Spectator)刊登小廣告,慢慢累積了約六百位訂戶。這些訂戶是來自各地的富翁與酒迷,基本上是一小撮較能接受計量經濟學方法的酒類收藏家。有多達三萬人每年付三十美元訂閱帕克的通訊《美酒鑑賞家》;相較之下,艾森菲特的訂戶少得可憐。

  一九九○年代初,《紐約時報》(New York Times)頭版有篇文章介紹艾森菲特的預測方法,他的觀念引起更廣泛的注意。帕克對一九八六年波爾多葡萄酒的評價是「非常好,甚至極好」,艾森菲特的看法卻大不相同。他認為那年生長季的溫度低於平均值,收成季的雨量又高於平均值,釀出的葡萄酒註定品質平平。

  文章中真正的震撼彈是艾森菲特對一九八九年波爾多葡萄酒的預測。那些酒放入桶子裡還未滿三個月,甚至沒有酒評家品過,艾森菲特卻已預測那個年份的酒質將是「世紀之最」,保證「非常出色」。依據他的標準,一九六一年的波爾多葡萄酒若是一百分,一九八九年的波爾多可高達一四九分,他大膽預測,「將創出三十五年來最高售價」。

  酒評家都被激怒了。帕克譏諷艾森菲特的量化預估「荒謬可笑」,索科林說酒評家的反應「介於憤怒與恐懼之間,他真的得罪了一缸子人」。不到幾年,《美酒觀察》拒絕再為他(或任何人)的通訊刊登廣告。

  傳統專家準備群起攻之,指出他的方法大有問題,無法精確預測未來的價格。舉例來說,《美酒觀察》的品酒主管馬修斯(Thomas Matthews)抱怨他的價格預測「在二十七種酒裡只有三種準確」。他的「公式雖依據價格資料設計,他預測的價格有時會高於實際價格,有時又太低」。但對統計學家(或任何曾思考過統計學的人)而言,這其實是好事,有時高、有時低代表不具偏見。事實上,艾森菲特的預測凸顯出帕克最初的評比都偏高了,往往有向下修正的必要。

  一九九○年,艾森菲特更進一步獨排眾議。先前他宣布一九八九年波爾多葡萄酒是世紀之最,他從資料中看出一九九○年的酒質更佳,而且將此發現公諸於世。回頭來看,《液體資產》預測之準確讓人驚訝,八九年的波爾多葡萄酒品質確實很好,九○年的酒質也確實更好。

  怎麼連續兩年產出世紀最佳的葡萄酒?原來自一九八六年以後,沒有一年的生長季溫度低於平均值;事實上,有長達二十多年的時間,法國一直享有宜人的氣候。那兩年特別適宜釀造柔順的波爾多葡萄酒;對葡萄酒愛好者而言,這當然是好事。

  現在,傳統專家比較注意氣候了。多數人並未公開承認艾森菲特的預測準確,但他們自己的預測確實比更貼近艾森菲特簡單公式的計算結果。艾森菲特的網站www.liquidasset.com 還在,但已沒有發行通訊。他說:「那些品酒家和以前不一樣了,不會再犯嚴重的錯誤。坦白說,是我自己斷了自己的生路,我已沒有什麼利用價值。」

  批評者視他為異端,唯恐他揭開品酒世界的神祕面紗。他揚棄花稍無意義的詞彙(如「強勁」、「堅實」、「輕盈」),直接說明預測的根據。

  業者的反彈不只關於品酒美學。凱塞說:「酒商與評論家就是不希望大眾太深入了解。最早的爭議源自八六年份的酒,艾森菲特說那些佳評都是騙人的。那一年其實很糟糕,雨水太多,溫度又不夠高,但當時所有的酒評家都說得天花亂墜,強調那年的酒有多好。事實證明,艾森菲特是對的,但觀點正確未必受歡迎。」

  酒商與酒評家為顧及自身利益,當然有必要持續壟斷有關酒品質的資訊。酒商利用永遠過高的初期評比來穩定酒價,《美酒觀察》與《美酒鑑賞家》更因投資了幾百萬美元在裡面,不能輕言放棄品酒界的龍頭地位。正如美國作家辛克萊(Upton Sinclair)及後來的美國前副總統高爾(Al Gore)所說的:「如果一個人因不懂某件事才賺得到錢,自然也很難讓他搞懂。」酒類也是如此,艾森菲特指出:「必須讓很多飲酒的人都認為我的公式沒用,那批人才賺得到錢。現在突然間讓那些人的工作失去價值,他們當然不會高興。」

  不過我們看到一些改變的跡象。布洛班(Michael Broadbent)是倫敦佳士得國際酒類部門主管,他的說法很有技巧:「很多人認為艾森菲特是個怪咖。我想從很多方面來說,他確實是怪,但幾年下來,我發現他的觀念與研究很準,對想要買酒的人確實有幫助。」

棒球界的艾森菲特

  品酒專家的浮華世界似與棒球毫不相干,但就很多方面而言,艾森菲特對前者的影響就如作家詹姆斯(Bill James)之於棒球界。

  詹姆斯在自編的年鑑《棒球摘要》(Baseball Abstracts)裡,對棒球專家僅憑目測就能挖掘明日之星提出質疑。路易士(Michael Lewis )在所寫的《魔球─逆境中致勝的智慧》(Moneyball )裡指出,詹姆斯是棒球界主張資料導向決策的第一人。詹姆斯的論點簡單有力,他認為資料分析優於專家的觀察力:

  要評估球員的潛力需要很多資訊,光憑肉眼是不夠的。請想想看,打擊率三成與二成七五的球員怎麼可能憑肉眼看出來?兩者的差異是每兩週多一支安打……。如果你一年看兩者打十五場球賽,有四○%的機率會看到二成七五的球員擊出較多安打……。優秀球員與一般球員的差異根本無從分辨─關鍵在於資料。
  
  就像艾森菲特一樣,詹姆斯相信公式。他說:「評量球員的價值應該看他的得分貢獻。」因此詹姆斯設計了一套公式:

得分=(安打+保送)×壘打數/(打數+保送)

  這個公式較注重球員的上壘率,對常被保送者尤其給予較高評分。詹姆斯的數據分析法當然讓球探恨得牙癢癢的。如果說帕克之類的酒評家是靠味覺與嗅覺生活,球探就是靠眼力維生,那是他們的價值所在。正如路易士所說的:
你知道球探如何找到明日之星嗎?就是開車奔走六萬哩,住上百家破爛的汽車旅館,不知要在「丹尼」(Denny’s )連鎖餐廳吃幾百次飯,才能在四個月內看完兩百場高中與大專棒球賽,其中一百九十九場完全沒有意義……。你走進球場,在補手正後方第四排的鋁質長條椅坐下,以便看到別人看不到的東西─至少別人看到了也不知其意義。你只要看到一次就夠了。「只要看一次,就知道了。」

  球探和帕克那類酒評家的共同點不只是喜歡吐口水。正如帕克相信他只要嚐一口酒就可評斷酒的品質,球探相信看一眼就可知道某高中球員是否有發展潛力。

  這兩種情況都嘗試預測未經試驗、不成熟產品未來的市值,只是一個是葡萄,一個是球員。兩種情況的主要爭議在於:究竟應該相信專家的觀察,還是量化的資料。

  球探和酒評家一樣,常訴諸無法證明真偽的模稜語彙,如「他是真正的棒球員」或「他是天生好手」。

  《魔球》裡談到,資料與傳統專家的衝突在二○○二年達到最高點。奧克蘭運動家隊(Oakland A)的總經理畢恩(Billy Beane)要徵選布朗(Jeremy Brown)。畢恩讀過詹姆斯的文章,決定依據數據用人。畢恩看上布朗,是因為他比其他大專球員更常被保送。而球探都不喜歡布朗,理由是他太肥。運動家隊的球探冷嘲熱諷說他若穿燈芯絨褲跑壘,「準會著火」。球探一致認為像他那種身材的球員不可能打進大聯盟。畢恩完全不在乎球員的外型,他的說法是:「我們又不是賣牛仔褲。」他唯一的要求是贏得比賽。事後證明,那些球探似乎都看走眼了,布朗比運動家隊那年獲選的其他球員都進步得快速。二○○六年九月,他首度以大聯盟球員的身分為運動家隊效力,打擊率高達三成(上壘率三成六四)。

  詹姆斯最初嘗試散播數據分析結果的情形與艾森菲特極雷同。就像艾森菲特,詹姆斯先為他的第一份通訊《棒球摘要》刊登小幅廣告(他美其名稱之為一本書)。第一年售出七十五冊。就像艾森菲特被《美酒觀察》拒絕往來,詹姆斯要求艾利斯體育研究公司(Elias Sports Bureau)分享資料時,也同樣遭受冷落。

  但這兩人已在各自的領域留下永久的印記。《魔球》一書詳細記錄了運動家隊的輝煌戰績,乃至波士頓紅襪隊在艾普斯坦(Theo Epstein)的資料導向管理下,贏得第一次世界冠軍,在在見證了詹姆斯恆久的影響力。傳統品酒作家後來開始參考氣候變化作更準確的預測,其實也等於默默向艾森菲特致敬。

  這兩人帶動了統計研究的風潮,不少人對他們的數據分析大表認同。詹姆斯激勵了美國棒球研究學會(SABR)的成立,現在甚至有一個術語代表棒球領域的數據分析─棒球統計學(sabermetrics)。艾森菲特則是在二○○六年發行《美酒經濟學期刊》(Journal of Wine Economics)。現在還有一個酒類經濟學家協會;毫不令人意外,艾森菲特就是首任會長。事後看來,艾森菲特初期的預測超準。我查了一下拉圖堡(Chateau Latour)最近的葡萄酒拍賣價,一九八九年份的售價果然是八六年份的兩倍有餘,九○年份的售價更高。帕克,你能不心服嗎?

美酒的真相

  本書旨在說明數據分析在品酒與棒球界的興起絕非單一現象,這兩個例子是本書探討內容的縮影。我們正處於馬車與火車競賽的歷史轉捩點,直覺與專業經驗一次又一次敗給數據分析。過去,很多決策都是依據經驗與直覺的某種組合,專家憑藉個人數十年嘗試犯錯的經驗而廣受尊崇。一般人總認為專家最懂,因為他們已累積千百次的經驗,所以能夠在社會上生存、成功。任何人想要知道某個問題怎麼解決,問老經驗的專家就是了。

  現在情勢轉變了。公私領域的專業人員愈來愈仰賴資料庫作為決策依據。避險基金的故事讓我們看到新品種的數據分析專家已然問世─姑且稱之為「超級數據達人」(Super Crunchers)─這些人透過大量資料集的分析,在看似不相干的事物中找到實證的關聯。你有大筆歐元部位需要避險嗎?他們可能會告訴你,你應該賣出由二十六種股票與商品組成的保守平衡標的,裡面可能包括美國連鎖超商沃爾瑪的股票。

  什麼是「超級數據分析」(Super Crunching)?超級數據分析是影響實務決策的一種統計分析,通常是透過數量、速度、規模的某種組合作出預測。這種分析使用的資料集都很龐大─所謂龐大包括資料與變項。此外,分析速度也愈來愈快,往往資料剛出爐便能作出即時的數據分析。影響的程度更是不可小覷,這裡所說的可不是一小撮學院書呆子弄出幾篇聳動的文章,超級數據分析是因應決策者的實際需求而生的,甚至由決策者自己主導。

  我說超級數據達人運用的資料集很龐大,這句話一點也不誇張。現在業者或政府的資料集往往不是以百萬位元(mega)或十億位元組(gigabytes)計,而是兆位元(tera),甚至千兆位元組(petabytes)。一個兆位元組相當於一千個十億位元組。兆位元一詞源自希臘文,原意龐然大物(或怪物)。事實上,兆位元組也確實是龐然大量─整個美國國會圖書館的藏書也不過大約二十兆位元組。本書的一個重點是告訴讀者要開始習慣這個單位。舉例來說,沃爾瑪的資料庫儲藏量超過五百七十兆位元組,Google 則約有四千兆位元組必須日夜分析。顯見資料採礦(tera mining)已不再是幻想故事的題材,而是此刻正在發生的事。

  在一個又一個領域,「直覺主義者」與傳統專家都在與超級數據達人對抗。在醫界,「實證醫學」(evidence-based medicine )引發激烈爭辯,歸根究底,爭的是治療方法的選擇是否應該依據統計分析。直覺主義者當然不會輕易認輸,他們堅稱資料庫絕無法涵蓋專家窮一生經驗累積的知識,迴歸分析也絕比不上一個有二十年資歷的急診室護士,她可能只要看一眼就能判斷一個小孩是否「不太對勁」。

  當我們想到棋王卡斯帕洛夫(Garry Kasparov)會輸給電腦「深藍」(Deep Blue),總認為是因為IBM 的軟體太聰明。其實那個軟體就是一個龐大的資料庫,將各棋步的優劣進行詳細的比較。電腦的速度很重要,但電腦真正致勝的關鍵在於掌握了七十萬種棋賽的資料庫。卡斯帕洛夫的直覺敗給了資料導向的決策。

  超級數據達人不僅侵入傳統專家的領域並取而代之,更改變了我們的生活。他們不僅改變了人們的決策方式,也改變了決策本身。棒球球探會敗給統計專家,不只是因為數據分析專家的成本比球探搭飛機跑來跑去低很多,也因為球探的預測比較不準。當然,超級數據達人與專家的意見並不是每次都不相同,有時候數據分析專家的結果還印證了專家的智慧。如果專家的預測百分之百都是錯的,甚至比一般機率還低,那這個世界也未免太扭曲了。但事實是,數據分析專家可以讓我們作不同的選擇,而且通常是更好的選擇。

  我們在一個又一個領域觀察到同樣的現象:看起來完全不同的的資訊因統計分析而發掘出隱藏的關聯。假設你是政治人物,想要知道誰最可能捐款給你、用哪一種形式爭取選票最有效,你不需要猜,也不一定要遵循經驗法則,或是信任經驗老到的專家。現在,你也可以揀選不同元素的可測量效益,找出最能打動人的作法。透過資料庫的搜索,能夠揭露傳統專家永遠想不到的隱藏因素。我們周遭到處看得到資料導向的決策:

  .租車公司與保險公司拒絕為信用評比低的人服務,因為他們從資料採礦得知信用評分與行車事故的機率有關。

  . 有人取消機位時,航空公司不再優先給常客,而是給資料採礦結果認定最可能跳到別家公司的顧客。此外,很多公司不再採取先到先服務的原則,而是依據個別顧客的數十種狀況而定。

  .依據「有教無類法案」(No Child Left Behind Act ),學校的教學方法必須通過嚴謹的資料分析,老師因而花費四五%的上課時間訓練學生通過標準化的考試。部分老師上課時甚至要使用經過統計評估的固定用語。

  直覺主義者可要提高警覺了。本書將詳細介紹一連串讓人眼花繚亂的超級數據分析案例,以及案例的主角。超級數據分析革命並非只發生在棒球界或體育界,而是遍及日常生活的每個層面。很多時候,超級數據分析革命對消費者是好的,可以讓廠商與政府更準確預測民眾需要,但有時候可能形成對消費者不利的情勢,因為廠商能準確預測出從我們身上可榨出多少錢。

  李維特(Steven D. Levitt )與杜伯納(Stephen J. Dubner )在《蘋果橘子經濟學》(Freakonomics )裡提出數十種例子,說明資料庫的統計分析如何揭露因果關係背後的關鍵力量。而李維特與唐納修(John Donohue )讓我們知道,看似不相干的事件,如一九七○年的墮胎率與一九九○年的犯罪率,其實有很重要的關聯。(這兩人都是我的好友,也曾合作寫書,本書後面會再提到他們。)但《蘋果橘子經濟學》並未討論量的分析如何影響實務決策,而這正是本書要補足的重點。事實是,產業內、產業外,有許多人正透過你想不到的方式將統計分析運用在各項決策上。

  電腦資料庫的容量大增,正讓全球產業改變風貌。一九五○與六○年代,人們曾經預期(又害怕)在強勢政府與企業的主導下,精密的社會工程(social engineering )將席捲全世界─例如派卡德(Vance Packard )所寫的《隱形的說客》(The Hidden Persuaders)便反映出這種心理。現在,同樣的情勢似乎又在新一代身上出現。只是過去我們以為強勢政府會透過命令與控制解決所有問題,這次觀察到的,卻是超大的資料網路在發威。

我為何挺身而出?

  我本身是一個數據分析專家。雖然我在耶魯教法律,在麻省理工學院讀博士時學的卻是經濟。我分析過各種領域的數據,從假釋金到腎臟移植、隱匿攜槍、無防護措施的性行為,無所不研究。讀者可能在想,這樣一個象牙塔裡的書呆子一定和現實世界的決策大大脫節(沒錯,我確實是那種心不在焉的教授,有一次要搭火車到波基普西市〔Poughkeepsie 〕,卻因寫文章太投入一直坐到紐哈芬〔New Haven)〕。但就連書呆子的資料採礦結果,有時也會影響現實世界。

  幾年前,李維特和我曾合作探討一個很實際的問題─路捷失竊車輛尋回系統(LoJack )對汽車失竊率的影響。路捷是一種小小的無線電收發器,可以隱藏在汽車內很多位置。當汽車被通報失竊時,警察可遙控啟動無線電收發器,具特殊配備的警車便可找出失竊車輛的確切位置。路捷可說是很有效率的找車裝置,路捷這家公司很清楚這點,也很自豪地在廣告中宣揚失竊車輛的找回率達九五%。我和李維特想要試驗路捷是否有助於降低整體失竊率。很多防盜器的問題在於只是轉移犯罪目標,例如你的車子裝了方向盤鎖,大概無法遏止犯罪,頂多讓竊賊多走幾步路去偷另一輛車。路捷最厲害之處在於它是隱藏的。如果一個城市有很多汽車都安裝路捷,竊賊將無法得知哪部車裝了、哪一部沒裝。

  李維特喜歡探討的就是這類怪問題。難怪《蘋果橘子經濟學》的評論家會說李維特看事情的角度與眾不同。幾年前,我剛好多一張球賽的票,便邀他和我一起去看麥可?喬登為「芝加哥公牛」出賽。李維特認為他若能更投入,會看得更有趣。但他不像我那麼在意公牛贏還是輸,因此,就在開賽前,他趕緊上網下注,押公牛贏。果然他看球賽時變得相當投入,網路賭博改變了他的動機。

  從某個奇特的角度來看,路捷也能改變人的動機。在路捷出現之前,很多職業竊賊幾乎不可能被抓。路捷改變了這一切。現在警察不僅能找回失車,往往也能逮到竊賊。單是在洛杉磯,就有上百家贓車解體工廠因此被破獲。如果一個人在路捷使用率高的城鎮偷了一百輛車,幾乎必然會偷到裝有路捷的車。我們想要試驗的是,路捷是否能全面嚇阻竊車;如果可以,這便創造出經濟學家所謂的「正向外部效應」(positive externality )。當你在車上裝方向盤鎖,可能會使鄰車被偷的機率提高。但如果很多人裝路捷,我們認為可能對職業竊賊產生赫阻作用,避免別人的車子被偷。

  我們最大的問題是說服路捷將銷售資料交給我們。我記得曾一再打電話溝通說服他們,我和李維特的假設如果為真,會讓消費者更有理由購買路捷。如果路捷讓別人的車輛失竊率跟著降低,或許路捷可以說服保險公司提供路捷使用者較多的折扣。最後,終於一位低階經理寄來一堆有用的資料,但坦白說,路捷剛開始對這項研究並不是很感興趣。

  當路捷看到研究報告的初稿時,一切都改觀了。我們看了五十六座城市十四年間的汽車失竊資料,發現路捷對其他車主助益頗大。在高犯罪率地區,投資五百美元裝路捷,可讓未裝路捷的汽車減少五千美元的損失。我們將路捷的銷售數字依年份及城市細分,精確評估路上的汽車有多少比例裝了路捷。(以波士頓為例,當地規定的汽車保險折扣最多,超過一○%的汽車都有裝路捷。)我們要探討的是,當路捷使用者增加時,對全市汽車整體失竊率有何影響。由於路捷在各城市開始銷售的年份不同,我們在評估路捷的影響時,可輕易與同一年度的一般犯罪率分開來看。我們在許許多多城市都發現同樣的現象─隨著路捷裝設率增加,汽車失竊率明顯下降。保險公司給予路捷的折扣根本不夠多,因為他們沒有考量到,連缺乏保護的汽車也因路捷減少了保險理賠。

  我和李維特都沒有買路捷的股票(坦白說,那是因為我們不希望改變自己的動機),但我們自知掌握了寶貴的資訊。我們的報告發表後,該公司股票漲了二?四%。我們的研究說服了更多城市採用路捷科技,也促使保險公司提供更多折扣(但還是不夠多)。
  我要表達的重點是,我熱愛數據分析,我的角色等於是資料採礦咖啡廳裡的主廚。就像艾森菲特一樣,我在一份重要期刊《法律、經濟學與組織期刊》(Journal of Law, Economics, and Organization)擔任編輯,必須經常評論統計報告的品質。由我來探討資料導向決策的興起,具備絕佳的視野,因為我既是這股風潮的參與者也是觀察者,能看熱鬧也能看門道。

本書重點

  下面五章將詳述超級數據分析在整個社會的興起。前三章會介紹兩種基本的統計方法─迴歸分析與隨機試驗,說明量化預測的藝術如何重塑企業與政府。第四章討論實證醫學引起的爭議。第五章則介紹上百項試驗結果,以比較資料導向決策與經驗決策跟直覺決策之間的差異。

  本書第二部分將退一步評估這個趨勢的重要性,探討為何在此時形成潮流,以及這是否值得令人欣喜。第七章檢視這股風潮中哪些人的損失最大─包括失去地位與裁決權。最後一章要展望未來,超級數據分析不代表直覺將被摒棄或職場經驗不再重要。我們相信在新時代裡,最聰明優秀的人必能同時善用統計與創意。

  總而言之,本書並不是要全盤否定直覺或專業經驗作為決策依據的價值,而是要凸顯出這兩者的演變軌跡,以及如何與資料導向的決策相輔相成。事實上,我們看到一種新型的超級數據達人─如李維特─在直覺與數據分析之間悠遊往返,卻也因此比直覺主義者或統計專家看得更遠更廣。

中文版推薦序
超級數據達人的超級任務
輔仁大學統計資訊學系教授/中華資料採礦協會 理事長 謝邦昌

  伊恩.艾瑞斯是美國著名的計量經濟學家與律師,經常在美國公共電台的「市場分析節目」(Marketplace)擔任評論員,也是《富比世雜誌》(Forbes)的專欄作家。目前為耶魯法學院教授(William K. Townsend教授席)、耶魯管理學院教授,也擔任《法律、經濟學與組織期刊》(Journal of Law, Economics, and Organization)編輯,著作等身。很榮幸能幫他的新書《什麼都能算,什麼都不奇怪──超級數據分析的祕密》中譯本寫推薦序,這本好書介紹的是數據分析──讓你我都身陷「數海」的解救者。

數據分析無所不在

  大多數科學家在面對數據分析時,都會問「我該收集什麼數據」、「從數據中我可以作出什麼結論」,或是「對於結果,我可以相信多少」之類的問題。其實,統計學與資料採礦(Data Mining)是數據分析(data analysis)的科學,用來處理歸類分析數據的問題並作出決策。處理問題所用的一些數據分析方法,例如假設檢定、線性迴歸分析、標準差及信賴區間…… 等等,我們在科學上都很熟悉。

  許多傳統的數據分析方法是在一九二○年到五○年之間發展出來,而這段期間的數據分析學家包括費雪(R. A. Fisher)、尼曼(Jerry Neyman)及荷特林(Harold Hotelling)等人。到了一九八○年代以後,因為電腦的快速發展,硬體速度愈來愈快,軟體解決問題及運算的能力愈來愈強,使得數據分析的理論及新的數據分析方法論受到很大的影響,諸如一些在電腦應用上發展得不錯的數據分析方法論,都是統計學與資訊科學的結合,而這些新的方法現在都大量運用在數據分析上。

  幾乎每個領域都需要使用數據分析作為分析工具,甚至扮演舉足輕重的角色。當然並非沒有數據分析就無法運作,但有了數據分析加入,可以作出更好、更精緻的決策,因此數據分析可應用的層面是無所不在的。

  管仲曾說:「不明於計數欲舉大事,如舟之無楫而欲行於大海也。」(《管子?問篇》)意指在不清楚相關數據的情況下想做大事,無疑像沒有槳的船想航行於汪洋大海中。《什麼都能算,什麼都不奇怪》列舉許多數據分析協助成功決策的例子,從紅酒的品味公式、賭場的輸贏、治國的機率分析、醫生應如何看待實證醫學,到棒球及職業球賽,都是利用數據分析的結果作決策並掌握趨勢的實證例子。發現問題、解決問題──從這個角度去看,就可以知道很多人都需要數據分析,無論是產官學界,無論是工業數據分析、計量經濟、調查管理或生物數據分析等各領域,數據分析都扮演關鍵的角色。

數據分析必須與其他學科整合

  就理論方法與數據分析間的關係來看,數據分析在各個領域中扮演著日益重要的配角。其實數據分析的真正學問就在此:如何將數據整合?如何定義數據?如何轉換數據?以何種方法處理數據?這些並非單靠純粹的理論就可以解決,數據分析在各領域的關鍵地位也就益發彰顯。例如民意調查及市場調查的核心工作,實際上就是數據分析中的抽樣調查理論。要是數據分析做不好,加上什麼社會學、政治學及企業管理學的分析推論都沒有用。但是換個角度想,除了把數據分析做好,專業領域的知識更重要,絕對要將政治學、社會學及企業管理學這些相關學問學好,才能解釋數據分析的結果。數據分析報表出來後,專業的分析者自有其角度去分析民意及市場的趨勢。

  很多人跟我說現在的數據分析太容易也太簡單了,把數據丟進許多數據分析的軟體(MINITAB、SAS、SPSS…… 等),結果就出來了。我常笑著說這叫作「GARBAGE IN, GARBAGE OUT」,把一份不明來由的數據扔進分析軟體,跑出來的分析結果還是不明究理,垃圾進去垃圾出來,一蹋糊塗也一片朦朧,唯有數據分析的專業人員才比較懂得如何分析、如何善待與利用數據,因此超級數據達人一定先要有數據分析方面的專業素養與技術。在此想強調的是數據分析有用論,至於如何使其有用?就由這本書來告訴大家正確的觀念。

數據分析就是決策科學的基礎

  我經常用算命來解釋數據分析有用論,有位命相大師說過一句話:「算命就是另類數據分析學。」沒錯,數據分析學裡的經驗法則、貝氏理論及機率論等等,都很符合算命的精神,而算命過程當中,無論是紫微命盤或是排八字等方法,其實也都是機率和排列組合的問題,至於看手相則可視為一種經驗累積,而經驗的累積正是數據分析學簡單的基礎。算得準不準?準不準在個人的解讀,信不信也在個人信念。但實際上,這一整個過程應有科學的基礎。假如交由超級數據達人將之理論化、科學化,絕對可以做得更好,因為算命的基本背景就是數據分析。

  統計學是數據分析很重要的工具。從前常把統計形容成《笑傲江湖》小說中任我行的吸星大法,現在覺得太邪氣了,應該用《天龍八部》中的北冥神功來比喻。基本上兩者都是一種數據吸納整理的觀念,因為數據分析可以將龐雜無章的數據整理分析成有用的資訊。這是數據分析最具魅力、最有效的地方。現在大家學數據分析、用數據分析,必須抱持一個觀念——你我周遭的生活及人生都充滿了數據分析的影子。

  數據分析一定要跟資訊結合,而數據分析確有其實用性。少了數據分析,決策失敗的機率就攀高。而數據分析就是決策科學的基礎。不管是學界、政府或產業界,數據分析有用的觀念已漸漸形成,有人開始構思成立類似企管顧問公司或諮詢顧問公司的數據分析諮詢顧問公司。因為數據愈來愈有用,賣數據正是時勢所趨,例如民間單位的中華徵信所,把蒐集到的數據分析加工處理後,再賣給廠商。數據的加值再利用成為一門新興行業,結合數據分析諮詢顧問中心進一步運用數據分析。氣象預測公司就是一個好例子。

  以美國統計學會(ASA)的網頁為例,其中分成許多的應用領域,環境、體育、文學、音樂……,無所不包,連統計畫圖都自成一個數據分析支派。提到體育,美國之所以能成為體育強國,中國大陸之所以能培養出那麼多優秀運動員,在北京奧運大放異彩,都應該歸功於兩國的體育數據分析做得好。其他還有醫藥方面的衛生數據分析及公共衛生、社經方面的民意調查,在此不一一介紹。由此可知,他們是多麼重視數據分析,少了數據分析,對他們而言就像是缺手缺腳一般。

用數據分析掌握趨勢

  每個人都會為了許多事情煩惱,為了生、老、病、死而擔憂。超級數據達人應如何利用數據分析的觀點去面對人生呢?也許有點像《三國演義》的卷頭語所寫的:「滾滾長江東逝水,浪花淘盡英雄。是非成敗轉頭空,青山依舊在,幾度夕陽紅。白髮漁樵江渚上,慣看秋月春風。一壺濁酒喜相逢,古今多少事,都付笑談中。」沒有所謂永恆,數據分析訴說的只是一個趨勢,預測一個現象。這些趨勢和現象會隨著時間而變動,沒人能掌握恆久。假使有人問我時間序列分析能不能預測到十年後、二十年後,甚至三十年後,我會說「你是瘋子」,那是不可能的!數據分析掌握的是趨勢,能告訴你在不同時間的不同變數能產生什麼不同看法,模式如何隨之修正。因此,從縱切面或橫切面去了解數據分析顯示的趨勢,進而掌握這個趨勢,下正確的判斷,不僅僅是超級數據達人的工作與職責,更是超級數據達人的人生觀。

從數據,到規則,到未來
亞洲資採技術總監 微軟特約顧問 尹相志

「最終無法被簡化為數值問題者,終將無法被探究。」
──法國實證學祖師 孔德(Auguste Comte, 1798-1857)

  人類的歷史就是不斷從觀察中歸納這個世界的規則,用以預測這個世界的所有運作法則。不只是觀察未來,也希望藉由預測未來甚至於控制未來;不只是讓自己為未來即將發生的事物作準備,也更進一步地讓未來往最有利的方項運作。

  預測未來的渴望深植於人類各種行為展現中,各種古文明都存在著占卜的技術,不管是從天象、龜甲的方位,甚至於咖啡渣的排列組合,其最終目的就是希望從表象的事件中找出與未來連結的徵兆與線索。

  隨著人類文明的演進,開始利用科學的方式找出變因對這個宇宙的影響,數學、物理與化學常識逐漸累積,但是科學家的眼光從最巨觀的宇宙天體運作,一直轉移到最微觀的基本粒子的交互作用,於是一條一條的方程式衍生出來。科學家常說「數學是上帝的語言」,希望利用數學式來描述宇宙萬物的目標不言而喻。

  而這種歸納世界運作準則的意圖不僅存在於自然科學,在社會科學中,也希望運用科學的方式來為這個世界找出運作的方程式。然而,社會是人類構成的有機體,人類的思緒與行為模式難以套用固定數學式而運作無誤。因此統計的觀念於焉產生,希望透過大量樣本的分析,找出多數人行為依循的方向。而「超級數據達人」的終極任務就是根據資料庫收集到的數據進行抽絲剝繭,以找出上帝隱藏的祕密線索。

  在台灣資料採礦界耕耘第八年,同樣身為「超級數據達人」的一員,每日也都是努力從客戶提供的資料中找出能夠轉化為商機的重要規則。這些資料採礦規則看來抽象,卻與各位的生活息息相關,從各位辦的信用卡會不會過、會收到多優惠的電信續約方案,甚至於保險公司會不會打電話向您銷售保險。雖然不能說是料事如神,但是透過資料採礦技術,只要能夠向未來的結果再逼近一些,就能夠轉換為驚人的商業利益。

  麻省理工學院(MIT)早在二○○一年元月/二月號的《科技評論》(Technology Review)中便表示,「資料採礦」為未來改變世界的十大新興科技趨勢之一。撇開這些不談,二○○二年六月號的《Smart Money》雜誌,也預測資料採礦分析師將是未來十年最熱門行業的第五名,同時預估資料採礦分析師的薪水行情將會是在年薪六萬至十二萬「美金」之間。光是這一點,在這全球經濟海嘯不景氣的同時,就值得各位讀者買回本書,回家好好領略超級數據達人的重要性。很高興除了艱深的資料採礦技術書籍之外,能夠有這麼淺顯易懂且內容包羅萬象的資料採礦科普問世,讓各位讀者在閱讀的同時,體會數據無所不在,而世界的規則就掌握在各位的手中。





* 讀者評鑑等級:

5顆星
* 推薦人數:1,共有1位網友寫書評。
*

我要寫書評

1.
孫培恩
/ 高雄
2009.11.12看孫培恩的所有評論
評鑑等級:

5顆星
六顆星,整本書內容很濃縮,談到動機和統計,幾乎是經濟學加上統計。

我看完了有想學好統計的慾望。





其 他 著 作