序
筆者在這短短一年多的時間裡經歷了人生中很多大事,在撰寫本書的同時,人工智慧自然語言處理領域的發展也經歷了很多大事件,有預測蛋白質結構的alpha-fold 模型、有1750 億參數量的超大無比GPT3 屠榜自然語言處理各個任務的榜單,也有實現增量推理與分散式推理的盤古預訓練模型。整體來講,自2018年底Google 公司發佈BERT 預訓練模型後,自然語言處理領域呈現井噴式發展,但是,無論當前自然語言處理模型如何發展,其仍舊基於深度神經網路,無非是網路的結構、神經元的數目及使用的硬體資源不同罷了。
資訊時代的來臨,人類從資訊匱乏的年代走向資訊爆炸的年代,現在的學習資料多如牛毛,但量大並不代表質優,因此,如何將雜亂無章的基礎知識整理成高效可擴充的知識路線,是筆者在撰寫本書時無時無刻不在思考的問題。本書從一個人工智慧演算法工程師的角度並依據筆者多個國家級競賽的獲獎經驗撰寫,目的是讓每個讀者都能夠從流程化的演算法中掌握一筆符合自己的學習路線。
因此,本書將架設一個自然語言處理的學習框架,以幫助讀者用最低的學習成本掌握自然語言處理任務。這不僅可以幫助讀者建構屬於自己的自然語言處理知識宇宙,同時也方便讀者可以基於自己的知識系統進行二次擴充,加深對自然語言處理的理解。本書的內容涉及自然語言處理領域的演算法流程、無監督學習、預訓練模型、文字分類、智慧問答、命名實體辨識、文字生成、模型的蒸餾與剪枝等。
本書是筆者在清華大學出版社出版的第二本書。不得不說,完成一本書的過程非常艱辛但十分有意義,筆者將其當成另一種形式的創業,也是對自己思考方式另一個維度的錘煉,同時也是向這個世界每個學習自然語言處理的讀者分享有益的知識。
另外,感謝深圳大學資訊中心和電子與資訊工程學院提供的軟硬體支援,感謝我的導師秦斌及實驗室為本書內容與程式做出貢獻的每位同學,感謝在背後支援我的父母、親人、朋友。筆者很高興能為浩如煙海的人工智慧領域知識庫提交一份有用的學習材料。
由於筆者水準與精力有限,書中難免存在某些疏漏,衷心歡迎讀者指正批評!
王志立