前言
什麼是機器學習?現在恐怕無需再做基本概念解釋了。在本書中,我們談機器學習的實用技術。我們知道,有了資料,就要做很多分析工作。其中很常見的、很基本的一個分析是,針對目標變數,我們需要從大量的候選變數(可能是幾百個、幾千個)中,探索、發現哪些變數與目標變數具有較強的廣義相關性。我們可能應用很多不同的演算法,一一對每個候選變數與目標變數進行相關性探索嘗試,可有時還是沒能找到一個有顯著相關性的變數。不少人可能都覺得沒辦法了。但是,沒有找到顯著的獨立相關變數,不意味著不存在任何相關變數了,資料中有可能存在著多個變數組合與目標變數具有較強的相關性(多變數相關組),或者說,與目標變數具有較強相關性的某個變數在資料中被“拆分”成了多個與目標變數不具有較強相關性的分變數。那麼,在幾百個甚至成千上萬個候選變數中,如何有效地找到一個或多個多變數相關組呢?這是機器學習技術與工程實踐中一個典型的深入課題。解決這個問題,就像下圍棋一樣,棋局太多、變化太多,方法也太多。機器學習中類似的分析課題有很多,這需要我們不斷地探索、不斷地實踐、不斷地創新、不斷地累積,以便在千變萬化的“棋局”中找到解決之道、制勝之道!
機器學習作為一種自動化、智慧化的深度分析技術,從更高的層面上講,其目的就是要從由資料代表的真實世界事物中探索和挖掘潛在規律和隱含機理,因此,機器學習除了是一門實用的應用技術外,它的發展前沿還是奧秘揭示、知識發現、科學探索!更高瞻遠矚一些,機器學習隨著理論和實踐的不斷深入,已經不再是原先狹義的“資料利用”和“知識發現”了,正在越來越深入到數學發現、甚至哲學發現以及科學發現了。例如,機器學習通常從刻劃客觀事物的各類大資料中挖掘出內在的規律,並期望能得到可靠、精準的可預測性結果。但是,隨著機器學習應用和研究的深入,我們發現了大量不可預測的現象與問題。通常,技術人員會想是資料出現了問題?還是演算法出現了問題?因為人們的傳統思維通常是建立在確定性理論基礎之上的。但是,科學家們已經越來越多地意識到、甚至認識到了世界上大量不確定性現象的客觀存在。
那麼,資料中出現的這種不可預測性,很可能是由不確定性系統產生的。現實世界中,除了我們認識到的確定性系統之外,還存在著很多不確定性系統,這些系統中擁有大量的非線性的、無序的現象和事物。例如,量子力學中的不確定性原理、混沌學中確定性系統中的無序隨機性,都屬於不確定性,也就是說,至少是目前技術水準下,是不可預測的。但是,系統中存在著混沌性和無序性,並不意味著無規律性。實際上,很多系統中的非線性無序狀態中蘊含著許多規律性,只不過現代的理論和技術比較有限,尚不能很好地認識和應用這些規律。例如,混沌學中勞侖次吸子是一個美麗的無序狀態,它是有規律的,資料的表現貌似隨機,但卻遵循著一定之規(數學模型)。
實際上,除了混沌學發現了大量的無序現象外,還有其他學科涉及不確定性系統的研究,例如,概率論也是研究無序(隨機)問題的一個分支學科。無序(隨機)與有序(確定)是相對的,而不同的無序(隨機)之間是相對的。以上都體現了系統的不確定性,由資料表達的時候,就出現了不可預測性。這就需要機器學習或者資料採擷的理論、技術與實踐還要不斷創新和發展。因此,我們說,機器學習在現在和未來,作為現實世界科學探索的一個工具和技術,將不斷地探索和發現包括不確定性系統產生的大量客觀規律,以便更好地服務於各行各業的應用實踐!
我們在本書中盡可能將理論與實踐相結合,既重於實踐應用又深入理論原理。理論是灰色的,而實踐則是最真實的。本書是機器學習應用方面的書籍,我們希望盡可能多講些實踐和案例,並多用圖畫、圖表說明大部分的機器學習原理和應用,讓讀者更能貼近實際。
本書主要內容
第1章 機器學習基礎-介紹機器學習應用的基礎內容,希望能快速引領讀者進入機器學習領域。該章包括機器學習中一些基本概念,如數據的“形狀”、機器學習要素等;機器學習的應用概念,如事物與維度、分佈與關係、描繪與預測、現象與知識、規律與因果;機器學習基礎概念,如無限三維嵌套空間,分數維度空間,不確定論等。
第2章 資料探索:介紹機器學習應用活動的前期工作,即資料探索和資料準備工作,包括資料關係探索、資料特徵探索、資料選擇、資料處理。
第3章 機器學習技術-介紹機器學習的演算法,一個好的、合適的演算法在機器學習應用專案中起著至關重要的作用。本書從實際應用出發,介紹一些比較經典的演算法,也包括一些我們為應用編寫的新演算法,以及一些演算法流程,演算法包括聚類分析、特性選擇、特徵抽取、關聯規則、分類和預測、時間序列、深度學習等。
第4章 機器學習應用案例-介紹應用上一章中提到的一些演算法開發商業應用的案例。這些案例不僅體現了演算法的實踐應用,也展現了機器學習應用各個環節的工作內容。該章將主要介紹特性選擇模型的應用、分類模型的應用等。
第5章 機器學習應用系統開發-介紹智慧醫學科研系統IMRS的設計思路與步驟,包括從應用需求的產生、解決思路、系統設計、應用實現、效果評價與總結等完整過程,具體剖析IMRS的幾個重要模組的開發方法,包括異常偵測模型、特徵抽取模型,以及演算法開發。
第6章 機器學習系統應用(一):結構資料採擷-介紹如何使用機器學習應用系統IMRS。按照臨床科研的普遍需求,我們將IMRS的功能劃分為六個方向:分佈探索、關係探索、特徵探索、異常探索、推測探索和趨勢探索,該章介紹前五個方向的應用。
第7章 機器學習系統應用(二):非結構資料採擷-繼續介紹如何使用機器學習應用系統IMRS,包括文本探勘技術、文本資料採擷在醫學上的應用、文本分詞的實現、文本智慧搜索、文本聚類與分類的應用、文本主題提取應用。
第8章 基於機器學習的人工智慧應用-介紹人工智慧在醫學上的應用:智慧醫學診斷系統的設計思路與應用,還介紹了混沌人工智慧的概念、應用及展望。
※本書內容部分圖像由於無法轉換,所以維持原簡中文字圖面呈現,不便之處敬請見諒。
致謝
現在,大數據和機器學習是熱門,長年從事這個領域工作的我及我的團隊都很忙,能夠出版這本書實屬不易。需要感謝的是我公司的Sun Chen(孫辰),他是來自澳洲的資深資料分析師,雪梨大學統計學碩士畢業,在本書的編寫和整理過程中做了不少的協助工作,在此表示由衷的感謝!當然,機械工業出版社的吳怡編輯給予了我極大的支持,她嚴謹的學術態度和豐富的編輯專業經驗,不僅是本書品質的保證,也給我留下了深刻的印象,再次向吳老師表示衷心的感謝!最後,還要特別感謝我的家人,他們是我事業的最有力支持者,本書要獻給我親愛的兒子Eddie和我所有的家人!
知識無止境,學習無止境!我和我的團隊也還在不斷地學習。書中的錯誤和不當之處可能難免,敬請廣大讀者指正,不勝感謝!
?
洪松林(Hong Song Lin)
2017年12月26日