庫存狀況
「香港二樓書店」讓您 愛上二樓●愛上書
我的購物車 加入會員 會員中心 常見問題 首頁
「香港二樓書店」邁向第一華人書店
登入 客戶評價 whatsapp 常見問題 加入會員 會員專區 現貨書籍 現貨書籍 購物流程 運費計算 我的購物車 聯絡我們 返回首頁
香港二樓書店 > 今日好書推介
二樓書籍分類
 
Python網路爬蟲:大數據擷取、清洗、儲存與分析:王者歸來

Python網路爬蟲:大數據擷取、清洗、儲存與分析:王者歸來

沒有庫存
訂購需時10-14天
9789865501020
洪錦魁
深智數位
2019年10月20日
217.00  元
HK$ 173.6
省下 $43.4
 
二樓書卷使用細則 二樓書卷使用細則





ISBN:9789865501020
  • 規格:平裝 / 560頁 / 17 x 23 x 2.8 cm / 普通級 / 單色印刷 / 初版
  • 出版地:台灣


  • 電腦資訊 > 程式設計 > SQL

















      這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約350個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識,下列是本書有關網路爬蟲知識的主要內容。



      # 認識搜尋引擎與網路爬蟲

      # 認識約定成俗的協議robots.txt

      # 從零開始解析HTML網頁

      # 認識與使用Chrome開發人員環境解析網頁

      # 認識Python內建urllib、urllib2模組,同時介紹好用的requests模組

      # 說明lxml模組

      # Selenium模組

      # XPath方法解說

      # css定位網頁元素

      # Cookie觀念

      # 自動填寫表單

      # 使用IP代理服務與實作

      # 偵測IP

      # 更進一步解說更新的模組Requests-HTML

      # 認識適用大型爬蟲框架的Scrapy模組



      在書籍內容,本書設計爬蟲程式探索下列相關網站,讀者可以由不同的網站主題,深入測試自己設計網路爬蟲的能力,以適應未來職場的需求。



      # 金融資訊

      # 股市數據

      # 人力銀行

      # 交友網站

      # 維基網站

      # 主流媒體網站

      # 政府開放數據網站

      # 社群服務網站

      # PTT網站

      # 電影網站

      # 星座網站

      # 小說網站

      # 台灣高鐵

      # 露天拍賣網站

      # httpbin網站

      # python.org網站

      # github.com網站

      # ipstack.com網站API實作

      # Google API實作

      # Facebook API實作



      探索網站成功後,本書也說明下列如何下載或儲存不同資料格式的數據。



      # CSV檔案格式

      # JSON檔案格式

      # XML、Pickle

      # Excel

      # SQLite資料庫



      本書沿襲作者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計。

    ?


     





    第零章 認識網路爬蟲

    0-1 認識HTML

    0-2 網路地址URL

    0-3 爬蟲的類型

    0-4 搜尋引擎與爬蟲原理

    0-5 網路爬蟲的搜尋方法

    0-6 網路爬蟲是否合法

    0-7 認識HTTP 與HTTPS

    0-8 表頭(headers)



    第一章 JSON 資料與繪製世界地圖

    1-1 JSON 資料格式前言

    1-2 認識json 資料格式

    1-3 將Python 應用在json 字串形式資料

    1-4 將Python 應用在json 檔案

    1-5 簡單的json 檔案應用

    1-6 世界人口數據的json 檔案

    1-7 繪製世界地圖

    1-8 XML



    第二章 使用Python 處理CSV 文件

    2-1 建立一個CSV 文件

    2-2 用記事本開啟CSV 檔案

    2-3 csv 模組

    2-4 讀取CSV 檔案

    2-5 寫入CSV 檔案

    2-6 專題- 使用CSV 檔案繪製氣象圖表

    2-7 pickle 模組

    2-8 Python 與Microsoft Excel



    第三章 網路爬蟲基礎實作

    3-1 上網不再需要瀏覽器了

    3-2 下載網頁資訊使用requests 模組

    3-3 檢視網頁原始檔

    3-4 分析網站使用Chrome 開發人員工具

    3-5 下載網頁資訊使用urllib 模組

    3-6 認識httpbin 網站

    3-7 認識Cookie

    3-8 設置代理IP



    第四章 Pandas 模組

    4-1 Series

    4-2 DataFrame

    4-3 基本Pandas 資料分析與處理

    4-4 檔案的輸入與輸出

    4-5 Pandas 繪圖

    4-6 時間序列(Time Series)

    4-7 專題 鳶尾花

    4-8 專題 匯入網頁表格資料



    第五章 Beautiful Soup 解析網頁

    5-1 解析網頁使用BeautifulSoup 模組

    5-2 其它HTML 文件解析

    5-3 網路爬蟲實戰 圖片下載

    5-4 網路爬蟲實戰 找出台灣彩券公司最新一期威力彩開獎結果

    5-5 網路爬蟲實戰 列出Yahoo 焦點新聞標題和超連結

    5-6 IP 偵測網站FileFab



    第六章 網頁自動化

    6-1 hashlib 模組

    6-2 環保署空氣品質JSON 檔案實作

    6-3 檢測網站內容是否更新

    6-4 工作排程與自動執行

    6-5 環保署空氣品質的CSV 檔案



    第七章 Selenium 網路爬蟲的王者

    7-1 順利使用Selenium 工具前的安裝工作

    7-2 獲得webdriver 的物件型態

    7-3 擷取網頁

    7-4 尋找HTML 文件的元素

    7-5 XPath 語法

    7-6 用Python 控制點選超連結

    7-7 用Python 填寫表單和送出

    7-8 用Python 處理使用網頁的特殊按鍵

    7-9 用Python 處理瀏覽器運作

    7-10 自動進入Google 系統

    7-11 自動化下載環保署空氣品質資料



    第八章 PTT 爬蟲實戰

    8-1 認識批踢踢實業坊

    8-2 進入PTT 網址

    8-3 解析PTT 進入須滿18 歲功能鈕

    8-4 各篇文章的解析

    8-5 解析文章標題與作者

    8-6 推文數量

    8-7 文章發表日期

    8-8 將PTT 目前頁面內容以JSON 檔案儲存

    8-9 前一頁面處理的說明

    8-10 進入PPT 的Beauty 論壇網站

    8-11 ipstack



    第九章 Yahoo 奇摩電影網站

    9-1 本週新片

    9-2 中文片名和英文片名

    9-3 上映日期

    9-4 期待度

    9-5 影片摘要

    9-6 劇照海報

    9-7 爬取兄弟節點

    9-8 預告片

    9-9 排行榜



    第十章 台灣主流媒體網站

    10-1 蘋果日報

    10-2 聯合報

    10-3 經濟日報

    10-4 中國時報

    10-5 工商時報



    第十一章 Python 與SQLite 資料庫

    11-1 SQLite 基本觀念

    11-2 資料庫連線

    11-3 SQLite 資料類型

    11-4 建立SQLite 資料庫表單

    11-5 增加SQLite 資料庫表單紀錄

    11-6 查詢SQLite 資料庫表單

    11-7 更新SQLite 資料庫表單紀錄

    11-8 刪除SQLite 資料庫表單紀錄

    11-9 DB Browser for SQLite

    11-10 將台北人口數儲存SQLite 資料庫



    第十二章 股市數據爬取與分析

    12-1 證券櫃檯買賣中心

    12-2 台灣證券交易所

    12-3 Google 全球股市資訊

    12-4 Yahoo 股市資訊

    12-5 台灣股市資料讀取與圖表製作



    第十三章 金融資訊的應用

    13-1 台灣銀行利率查詢

    13-2 取得HTML 文件

    13-3 分析HTML 文件

    13-4 將利率表儲存成CSV 檔案

    13-5 取得最優惠利率

    13-6 基金資料



    第十四章 Dcard 社群服務網站

    14-1 進入網站

    14-2 分析網站

    14-3 抓取預設的熱門貼文

    14-4 爬取更多Dcard 熱門文章



    第十五章 星座屋網站

    15-1 進入星座屋網站

    15-2 分析網站與爬取星座運勢文字

    15-3 星座圖片的下載



    第十六章 小說網站

    16-1 進入小說網站

    16-2 解析網頁

    16-3 處理編碼問題

    16-4 爬取書籍章節標題

    16-5 爬取章節內容的連結

    16-6 從章節超連結輸出小說內容

    16-7 將小說內文存入檔案



    第十七章 台灣高鐵網站

    17-1 查詢台灣高鐵的站名

    17-2 時刻表查詢



    第十八章 維基百科

    18-1 維基百科的中文網址

    18-2 爬取台積電主文資料

    18-3 台積電的簡史

    18-4 URL 編碼



    第十九章 Python 與Facebook

    19-1 Facebook 圖形API

    19-2 facebook-sdk 存取資料的應用



    第二十章 Google API

    20-1 申請Google API 金鑰

    20-2 基本操作Google Map

    20-3 爬蟲擷取Google 地理資訊

    20-4 地理資訊的基本應用

    20-5 找尋指定區域內的景點



    第二十一章 Yahoo 拍賣網站

    21-1 Yahoo 拍賣網站

    21-2 分析網頁與單個商品搜尋

    21-3 系列商品搜尋



    第二十二章 Hotels.com 旅宿網站

    22-1 Hotels.com 旅宿網站

    22-2 解析輸入表單

    22-3 獲得查詢資料

    22-4 列出一系列所找到的旅館



    第二十三章 交友網站

    23-1 進入交友網站

    23-2 分析網頁

    23-3 爬取第一筆資料

    23-4 將爬取的資料儲存至CSV 檔案

    23-5 爬取與儲存Ajax 加載的頁面

    23-6 教育程度分析

    23-7 身高分析

    23-8 年齡分析



    第二十四章 Requests-HTML 模組

    24-1 安裝與導入

    24-2 使用者請求Session

    24-3 認識回傳資料型態與幾個重要屬性

    24-4 數據清洗與爬取

    24-5 搜尋豆瓣電影網站

    24-6 Ajax 動態數據加載



    第二十五章 人力銀行網站

    25-1 認識人力銀行網頁

    25-2 分析與設計簡單的爬蟲程式

    25-3 更進一步分析網頁



    第二十六章 Scrapy

    26-1 安裝Scrapy

    26-2 從簡單的實例開始 - 建立Scrapy 專案

    26-3 Scrapy 定位元素

    26-4 使用cookie 登入

    26-5 保存文件為JSON 和CSV 檔案

    26-6 Scrapy 架構圖

    26-7 專題爬取多頁PTT 資料



    ?







    ?

      這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約350個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識。

    ?

      在Internet時代,所有數據皆在網路呈現,從網路獲得資訊已經成為我們日常生活的一部份。然而如何從網路上獲得隱性的數據資訊,更進一步將此數據資訊做擷取、清洗、儲存與分析的有效應用,已經是資訊科學非常重要的領域,目前國內作者這方面著作不多,同時內容單薄,這也是筆者撰寫本書的動力。本書保持筆者一貫特色,實例豐富,容易學習,有系統的一步一步引導讀者深入不同網站主題,進行探索,下列是本書有關網路爬蟲知識的主要內容。

    ?

      □認識搜尋引擎與網路爬蟲

      □認識約定成俗的協議robots.txt

      □從零開始解析HTML網頁

      □認識與使用Chrome開發人員環境解析網頁

      □認識Python內建urllib、urllib2模組,同時介紹好用的requests模組

      □說明lxml模組

      □Selenium模組

      □XPath方法解說

      □css定位網頁元素

      □Cookie觀念

      □自動填寫表單

      □使用IP代理服務與實作

      □偵測IP

      □更進一步解說更新的模組Requests-HTML

      □認識適用大型爬蟲框架的Scrapy模組

    ?

      在書籍內容,筆者設計爬蟲程式探索下列相關網站。

    ?

      □金融資訊

      □股市數據

      □人力銀行

      □交友網站

      □維基網站

      □主流媒體網站

      □政府開放數據網站

      □社群服務網站

      □PTT網站

      □電影網站

      □星座網站

      □小說網站

      □台灣高鐵

      □露天拍賣網站

      □httpbin網站

      □python.org網站

      □github.com網站

      □ipstack.com網站API實作

      □Google API實作

      □Facebook API實作

    ?

      探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據。

    ?

      □CSV檔案格式

      □JSON檔案格式

      □XML、Pickle

      □Excel

      □SQLite

    ?

      在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題。

      □URL編碼與中文網址觀念

      □將中文儲存在JSON格式檔案

      □亂碼處理

      □簡體中文在繁體中文Windows環境資料下載與儲存

      □解析Ajax動態加載網頁,獲得更多頁次資料

      □使用Chromium瀏覽器協助Ajax動態加載

    ?

      註:讀者需了解網路爬蟲是針對特定網站擷取特定資料,本書所有程式雖經測試,在撰寫當下是正確,筆者同時列出執行結果。但是,如果網站結構改變,可能造成程式失效。

    ?

      寫過許多的電腦書著作,本書沿襲筆者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計,編著本書雖力求完美,但是學經歷不足,謬誤難免,尚祈讀者不吝指正。
    ?

    洪錦魁2019-10-15

    jiinkwei@me.com




    其 他 著 作
    1. Python最強入門邁向數據科學之路:王者歸來(全彩印刷第二版)
    2. Python 最強入門邁向頂尖高手之路:王者歸來 (全彩版)
    3. Python最強入門邁向頂尖高手之路:王者歸來(全彩版)
    4. Python 零基礎學程式設計與運算思維 -- 王者歸來
    5. Python零基礎學程式設計與運算思維:王者歸來
    6. Python GUI設計活用tkinter之路:火力加強版—王者歸來
    7. Python最強入門邁向數據科學之路:王者歸來
    8. PowerPoint 2016 入門與實作:王者歸來
    9. Python超零基礎最快樂學習之路:王者歸來
    10. 超極制霸:Word 強威速成秘典(2013以上版本適用)
    11. 專業聚焦 Computer Knowledge Today (第二版)
    12. Python GUI設計活用tkinter之路王者歸來
    13. Python零基礎最強入門之路:王者歸來
    14. All in One:Excel 2016 精粹版
    15. 超極制霸:Excel職場必備攻略 2013以上版本適用
    16. 超極制霸:PowerPoint速成精通祕典(2013以上版本適用)
    17. Java入門邁向高手之路-王者歸來
    18. Step by Step:Word 2013一點就通
    19. Python入門邁向高手之路王者歸來(附光碟)
    20. Word 2016入門與實作王者歸來
    21. Excel 2016入門與實作王者歸來
    22. Office 2013教學範本(第三版)
    23. C教學範本王者歸來
    24. HTML5+CSS3王者歸來(附光碟)
    25. 看圖例學 PowerPoint 2016 (附光碟)
    26. R語言:邁向Big Data之路(最新版)
    27. 邁向賭神之路:麻將必勝祕笈
    28. 精通 PowerPoint 2013
    29. 精通 Excel 2013
    30. Word 2013 教學範本(第二版)
    31. Word 2016 教學範本
    32. 看圖例學Excel 2016
    33. 超實用的office圖例必殺技
    34. Excel 2016 教學範本
    35. Excel 2013教學範本 (第三版)
    36. 一個人的極境旅行:南極大陸•北極海
    37. Excel 2010教學範本(第二版)
    38. 有圖有真相:逐介面精通Word 2013
    39. Excel 2013 教學範本(適用SiliconStone認證考試教材)
    40. PowerPoint 2013 教學範本(適用SiliconStone認證考試教材)
    41. Word 2013 教學範本
    42. R語言:邁向Big Data之路
    43. C/C++教學範本(第三版)
    44. Office 2013教學範本(第二版)
    45. Excel 2013教學範本(第二版)
    46. 這樣學習Mac OS X
    47. Word 2013 Silicon Stone 認證教科書
    48. Excel 2013 Silicon Stone 認證教科書
    49. PowerPoint 2013 Silicon Stone 認證教科書
    50. 通往Mac OS的高效捷徑
    51. 看圖例學Office 2013 (附光碟)
    52. C/C++教學範本(第二版)
    53. Office 2013教學範本(附光碟)
    54. 看圖例學Word 2013
    55. 看圖例學Excel 2013
    56. Excel 2013教學範本
    57. Mac OS X Mountain Lion使用手冊
    58. C教學範本(第二版)
    59. New iPad使用手冊
    60. Mac OS X Lion使用手冊
    61. Mac Office 2011中文版使用手冊(附範例CD)
    62. iPad2+越獄最新版使用手冊
    63. iPhone 最新版使用手冊+越獄JB
    64. iPhone 逍遙遊:妙手空空取寶藏
    65. Mac OS X Snow Leopard使用手冊
    66. 看圖例學iPhone 4
    67. 看圖例學Word 2010中文版
    68. iPhone 4使用手冊
    69. Office 2010教學範本
    70. 看圖例學OFFICE 2010(附光碟)
    71. Excel 2010教學範本(附光碟)
    72. 看圖例學EXCEL2010