庫存狀況
「香港二樓書店」讓您 愛上二樓●愛上書
我的購物車 加入會員 會員中心 常見問題 首頁
「香港二樓書店」邁向第一華人書店
登入 客戶評價 whatsapp 常見問題 加入會員 會員專區 現貨書籍 現貨書籍 購物流程 運費計算 我的購物車 聯絡我們 返回首頁
香港二樓書店 > 今日好書推介
二樓書籍分類
 
Python網路爬蟲:大數據擷取、清洗、儲存與分析 王者歸來(第二版)

Python網路爬蟲:大數據擷取、清洗、儲存與分析

沒有庫存
訂購需時10-14天
9789860776478
洪錦魁
深智數位
2021年10月19日
250.00  元
HK$ 212.5  






ISBN:9789860776478
  • 規格:平裝 / 552頁 / 17 x 23 x 2.76 cm / 普通級 / 單色印刷 / 二版
  • 出版地:台灣


  • 電腦資訊 > 程式設計 > SQL

















    Python網路爬蟲

    大數據擷取、清洗、儲存與分析

    王者歸來(第二版)

    ★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★

    ★★★★★【26個主題】+【400個實例】★★★★★

    ★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★

    ★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★

    ★★★★★【網路趨勢】+【了解輿情】★★★★★



      第二版和第一版做比較,增加下列內容:

      ★:全書增加約50個程式實例

      ★:網路趨勢,了解輿情

      ★:網路關鍵字查詢

      ★:YouBike資訊

      ★:國際金融資料查詢

      ★:博客來圖書排行榜

      ★:中央氣象局

      ★:租屋網站

      ★:生活應用



      下列是本書有關網路爬蟲知識的主要內容:

      ★:認識搜尋引擎與網路爬蟲

      ★:認識約定成俗的協議robots.txt

      ★:從零開始解析HTML網頁

      ★:認識與使用Chrome開發人員環境解析網頁

      ★:認識Python內建urllib、urllib2模組,同時介紹好用的requests模組

      ★:說明lxml模組

      ★:XPath方法解說

      ★:css定位網頁元素

      ★:Cookie觀念

      ★:自動填寫表單

      ★:使用IP代理服務與實作

      ★:偵測IP

      ★:更進一步解說更新的模組Requests-HTML

      ★:認識適用大型爬蟲框架的Scrapy模組



      在書籍內容,筆者設計爬蟲程式探索下列相關網站:

      ☆:國際與國內股市資訊

      ☆:基金資訊

      ☆:股市數據

      ☆:人力銀行

      ☆:維基網站

      ☆:主流媒體網站

      ☆:政府開放數據網站

      ☆:YouBike服務網站

      ☆:PTT網站

      ☆:電影網站

      ☆:星座網站

      ☆:小說網站

      ☆:博客來網站

      ☆:中央氣象局

      ☆:露天拍賣網站

      ☆:httpbin網站

      ☆:python.org網站

      ☆:github.com網站

      ☆:ipstack.com網站API實作

      ☆:Google API實作

      ☆:Facebook API實作



      探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據:

      ★:CSV檔案格式

      ★:JSON檔案格式

      ★:XML、Pickle

      ★:Excel

      ★:SQLite



      在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題:

      ☆:URL編碼與中文網址觀念

      ☆:將中文儲存在JSON格式檔案

      ☆:亂碼處理

      ☆:簡體中文在繁體中文Windows環境資料下載與儲存

      ☆:解析Ajax動態加載網頁,獲得更多頁次資料

      ☆:使用Chromium瀏覽器協助Ajax動態加載


     





    第零章 認識網路爬蟲

    0-1 認識HTML

    0-2 網路地址URL

    0-3 爬蟲的類型

    0-4 搜尋引擎與爬蟲原理

    0-5 網路爬蟲的搜尋方法

    0-6 網路爬蟲是否合法

    0-7 認識HTTP 與HTTPS

    0-8 表頭(headers)



    第一章 JSON 資料與繪製世界地圖

    1-1 JSON 資料格式前言

    1-2 認識json 資料格式

    1-3 將Python 應用在json 字串形式資料

    1-4 將Python 應用在json 檔案

    1-5 簡單的json 檔案應用

    1-6 世界人口數據的json 檔案

    1-7 繪製世界地圖

    1-8 XML



    第二章 使用Python 處理CSV 文件

    2-1 建立一個CSV 文件

    2-2 用記事本開啟CSV 檔案

    2-3 csv 模組

    2-4 讀取CSV 檔案

    2-5 寫入CSV 檔案

    2-6 寫入與讀取含中文的 CSV 文件

    2-7 專題—使用 CSV 檔案繪製氣象圖表

    2-8 pickle 模組

    2-9 Python 與Microsoft Excel



    第三章 網路爬蟲基礎實作

    3-1 上網不再需要瀏覽器了

    3-2 下載網頁資訊使用 requests 模組

    3-3 檢視網頁原始檔

    3-4 分析網站使用Chrome 開發人員工具

    3-5 下載網頁資訊使用urllib 模組

    3-6 認識httpbin 網站

    3-7 認識Cookie

    3-8 設置代理IP



    第四章 Pandas 模組

    4-1 Series

    4-2 DataFrame

    4-3 基本Pandas 資料分析與處理

    4-4 檔案的輸入與輸出

    4-5 Pandas 繪圖

    4-6 時間序列(Time Series)

    4-7 專題—鳶尾花

    4-8 專題—匯入網頁表格資料



    第五章 BeautifulSoup 解析網頁

    5-1 解析網頁使用BeautifulSoup 模組

    5-2 其它HTML 文件解析

    5-3 網路爬蟲實戰—圖片下載

    5-4 網路爬蟲實戰—找出台灣彩券公司最新一期威力彩開獎結果

    5-5 網路爬蟲實戰—列出Yahoo 焦點新聞標題和超連結

    5-6? IP 偵測網站 FileFab



    第六章 網頁自動化

    6-1 hashlib 模組

    6-2 環保署空氣品質JSON 檔案實作

    6-3 檢測網站內容是否更新

    6-4 工作排程與自動執行

    6-5 環保署空氣品質的CSV 檔案



    第七章 Selenium 網路爬蟲的王者

    7-1 順利使用Selenium 工具前的安裝工作

    7-2 獲得webdriver 的物件型態

    7-3 擷取網頁

    7-4 尋找HTML 文件的元素

    7-5 XPath 語法

    7-6 用Python 控制點選超連結

    7-7 用Python 填寫表單和送出

    7-8 用Python 處理使用網頁的特殊按鍵

    7-9 用Python 處理瀏覽器運作

    7-10 自動化下載環保署空氣品質資料



    第八章 PTT 爬蟲實戰

    8-1 認識批踢踢實業坊

    8-2 進入PTT 網址

    8-3 解析PTT 進入須滿18 歲功能鈕

    8-4 各篇文章的解析

    8-5 解析文章標題與作者

    8-6 推文數量

    8-7 文章發表日期

    8-8 將PTT 目前頁面內容以JSON 檔案儲存

    8-9 前一頁面處理的說明

    8-10 進入PPT 的beauty 論壇網站

    8-11 ipstack



    第九章 Yahoo 奇摩電影網站

    9-1 本週新片

    9-2 中文片名和英文片名

    9-3 上映日期

    9-4 期待度

    9-5 影片摘要

    9-6 劇照海報

    9-7 爬取兄弟節點

    9-8 預告片

    9-9 排行榜



    第十章 台灣主流媒體網站

    10-1 蘋果日報

    10-2 聯合報

    10-3 經濟日報

    10-4 中國時報

    10-5 工商時報



    第十一章 Python 與SQLite 資料庫

    11-1 SQLite 基本觀念

    11-2 資料庫連線

    11-3 SQLite 資料類型

    11-4 建立SQLite 資料庫表單

    11-5 增加SQLite 資料庫表單紀錄

    11-6 查詢SQLite 資料庫表單

    11-7 更新SQLite 資料庫表單紀錄

    11-8 刪除SQLite 資料庫表單紀錄

    11-9 DB Browser for SQLite

    11-10 將台北人口數儲存SQLite 資料庫



    第十二章 股市數據爬取與分析

    12-1 證券櫃檯買賣中心

    12-2 台灣證券交易所

    12-3 Yahoo 股市資訊

    12-4 台灣股市資料讀取與圖表製作

    12-5 國際股市數據爬取



    第十三章 金融資訊的應用

    13-1 台灣銀行利率查詢

    13-2 取得HTML 文件

    13-3 分析HTML 文件

    13-4 將利率表儲存成CSV 檔案

    13-5 取得最優惠利率

    13-6 基金資料



    第十四章 YouBike 數據

    14-1 台北市的YouBike 數據

    14-2 認識YouBike 的JSON 數據

    14-3 下載與儲存YouBike 資料

    14-4 獲得天母運動公園的YouBike 數據

    14-5 計算YouBike 車輛使用效率



    第十五章 星座屋網站

    15-1 進入星座屋網站

    15-2 分析網站與爬取星座運勢文字

    15-3 星座圖片的下載



    第十六章 小說網站

    16-1 進入小說網站

    16-2 解析網站

    16-3 處理編碼問題

    16-4 爬取書籍章節標題

    16-5 爬取章節內容的連結

    16-6 從章節超連結輸出小說內容

    16-7 將小說內文存入檔案



    第十七章 台灣高鐵與中央氣象局數據

    17-1 台灣高鐵

    17-2 中央氣象局



    第十八章 維基百科

    18-1 維基百科的中文網址

    18-2 爬取台積電主文資料

    18-3 台積電的簡史

    18-4 URL 編碼



    第十九章 Python 與Facebook

    19-1 Facebook 圖形API

    19-2 facebook-sdk 存取資料的應用



    第二十章 Google API

    20-1 申請Google API 金鑰

    20-2 基本操作Google Map

    20-3 爬蟲擷取Google 地理資訊

    20-4 地理資訊的基本應用

    20-5 找尋指定區域內的景點



    第二十一章 Yahoo 拍賣網站

    21-1 Yahoo 拍賣網站

    21-2 分析網頁與單個商品搜尋

    21-3 系列商品搜尋



    第二十二章 日常生活的應用

    22-1 租房資訊

    22-2 台鐵網站

    22-3 博客來電腦書排行榜



    第二十三章 網路趨勢

    23-1 使用Google Trends

    23-2 執行搜尋

    23-3 使用pytrends 模組

    23-4 每天或今天搜尋熱門的關鍵字

    23-5 年度熱門搜尋的關鍵字

    23-6 查詢同時列出建議關鍵字

    23-7 查詢關鍵字的相關查詢

    23-8 查詢關鍵字的相關主題

    23-9 關鍵字熱門搜尋區域



    第二十四章 Requests-HTML 模組

    24-1 安裝與導入

    24-2 使用者請求Session

    24-3 認識回傳資料型態與幾個重要屬性

    24-4 數據清洗與爬取

    24-5 搜尋豆瓣電影網站

    24-6 Ajax 動態數據加載



    第二十五章 人力銀行網站

    25-1 認識人力銀行網頁

    25-2 分析與設計簡單的爬蟲程式

    25-3 更進一步分析網頁



    第二十六章 Scrapy

    26-1 安裝Scrapy

    26-2 從簡單的實例開始—建立Scrapy 專案

    26-3 Scrapy 定位元素

    26-4 使用cookie 登入

    26-5 保存文件為JSON 和CSV 檔案

    26-6 Scrapy 架構圖

    26-7 專題—爬取多頁PTT 資料



    ?









      這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約404個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識,若是和第一版做比較,這本書增加下列內容:



      1:全書增加約50個程式實例

      2:網路趨勢與網路關鍵字查詢

      3:國際金融資料查詢

      4:YouBike

      5:博客來圖書排行榜

      6:租房網站

      7:中央氣象局

      8:生活應用



      在Internet時代,所有數據皆在網路呈現,從網路獲得資訊已經成為我們日常生活的一部份。然而如何從網路上獲得隱性的數據資訊,更進一步做將此數據資訊做擷取、清洗、儲存與分析的有效應用,已經是資訊科學非常重要的領域,目前國內作者這方面著作不多,同時內容單薄,這也是筆者撰寫本書的動力。本書保持筆者一貫特色,實例豐富,容易學習,有系統的一步一步引導讀者深入不同網站主題,進行探索,下列是本書有關網路爬蟲知識的主要內容。



      ■?? ?認識搜尋引擎與網路爬蟲

      ■?? ?認識約定成俗的協議robots.txt

      ■?? ?從零開始解析HTML網頁

      ■?? ?認識與使用Chrome開發人員環境解析網頁

      ■?? ?認識Python內建urllib、urllib2模組,同時介紹好用的requests模組

      ■?? ?說明lxml模組

      ■? Selenium模組

      ■? XPath方法解說

      ■ css定位網頁元素

      ■? Cookie觀念

      ■ 自動填寫表單

      ■ 使用IP代理服務與實作

      ■ 偵測IP

      ■ 更進一步解說更新的模組Requests-HTML

      ■ 認識適用大型爬蟲框架的Scrapy模組



      在書籍內容,筆者設計爬蟲程式探索下列相關網站。



      ■?? ?國際與國內股市資訊

      ■?? ?基金資訊

      ■?? ?股市數據

      ■?? ?人力銀行

      ■?? ?維基網站

      ■?? ?主流媒體網站

      ■?? ?政府開放數據網站

      ■? YouBike服務網站

      ■? PTT網站

      ■ 電影網站

      ■ 星座網站

      ■ 小說網站

      ■ 博客來網站

      ■ 中央氣象局

      ■ 露天拍賣網站

      ■ httpbin網站

      ■ python.org網站

      ■ github.com網站

      ■ ipstack.com網站API實作

      ■ Google API實作

      ■ Facebook API實作



      探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據。

      ■ CSV檔案格式

      ■ JSON檔案格式

      ■ XML、Pickle

      ■ Excel

      ■ SQLite



      在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題。



      ■ URL編碼與中文網址觀念

      ■ 將中文儲存在JSON格式檔案

      ■ 亂碼處理

      ■ 簡體中文在繁體中文Windows環境資料下載與儲存

      ■ 解析Ajax動態加載網頁,獲得更多頁次資料

      ■ 使用Chromium瀏覽器協助Ajax動態加載



      註:讀者需了解網路爬蟲是針對特定網站擷取特定資料,本書所有程式雖經測試,在撰寫當下是正確,筆者同時列出執行結果。但是,如果網站結構改變,可能造成程式失效。



      寫過許多的電腦書著作,本書沿襲筆者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計,編著本書雖力求完美,但是學經歷不足,謬誤難免,尚祈讀者不吝指正。



      教學資源說明



      教學資源有教學投影片,內容超過1500頁。



      如果您是學校老師同時使用本書教學,歡迎與本公司聯繫,本公司將提供教學投影片。請老師聯繫時提供任教學校、科系、Email、和手機號碼,以方便深智數位股份有限公司業務單位協助您。

    ?? ?

      臉書粉絲團

    ?? ?

      歡迎加入:王者歸來電腦專業圖書系列?? ?

    ?? ?

      歡迎加入:iCoding程式語言讀書會(Python, Java, C, C++, C#, JavaScript, 大數據, 人工智慧等不限),讀者可以不定期獲得本書籍和作者相關訊息。

    ?? ?

      歡迎加入:穩健精實AI技術手作坊?? ?

    ? ?

      讀者資源說明

    ?? ?

      請至本公司網頁deepmind.com.tw下載本書程式實例。


    洪錦魁2021-10-15

    jiinkwei@me.com




    其 他 著 作
    1. Python-最強入門邁向數據科學之路:王者歸來(全彩印刷第三版)
    2. Python操作Excel:最強入門邁向辦公室自動化之路 王者歸來
    3. C最強入門邁向頂尖高手之路王者歸來
    4. C最強入門邁向頂尖高手之路王者歸來
    5. matplotlib 2D到3D資料視覺化王者歸來(全彩印刷)
    6. OpenCV影像創意邁向AI視覺王者歸來(全彩印刷)
    7. Excel入門到完整學習 邁向最強職場應用 王者歸來 (全彩印刷)第二版
    8. 機器學習:彩色圖解+基礎微積分+Python實作 王者歸來(第三版) (全彩印刷)
    9. 最完整跨平台網頁設計:HTML + CSS + JavaScript + jQuery + Bootstrap + Google Maps王者歸來(第二版)(全彩印刷)
    10. Power BI入門 大數據視覺化 + 智慧決策 + 雲端分享 王者歸來(全彩印刷)
    11. Excel VBA最強入門邁向辦公室自動化之路王者歸來上冊
    12. Excel VBA最強入門邁向辦公室自動化之路王者歸來下冊
    13. 機器學習:彩色圖解 + 基礎微積分 + Python實作 王者歸來(第二版)
    14. 機器學習:彩色圖解 + 基礎數學篇 + Python實作 王者歸來(第二版)
    15. Excel函數庫最完整職場商業應用 王者歸來
    16. 機器學習:彩色圖解 + 基礎微積分 + Python實作 王者歸來(全彩)
    17. 演算法:最強彩色圖鑑 + Python程式實作 王者歸來(第二版)
    18. R語言邁向Big Data之路:王者歸來(第二版)
    19. Python零基礎學程式設計與運算思維:王者歸來 (第二版)
    20. Java最強入門邁向頂尖高手之路:王者歸來(第二版)全彩版
    21. Python最強入門邁向頂尖高手之路:王者歸來(第二版)全彩版
    22. 機器學習:彩色圖解 + 基礎數學篇 + Python實作 王者歸來(全彩)
    23. 最完整跨平台網頁設計:HTML + CSS + JavaScript + jQuery + Bootstrap + Google Maps(全彩印刷)
    24. Python面試題目與解答:邁向高薪之路
    25. Python邁向領航者之路:超零基礎(全彩印刷)
    26. 演算法:最強彩色圖鑑 + Python程式實作 王者歸來(全彩印刷)
    27. Python GUI設計活用tkinter之路(第三版):王者歸來
    28. Excel 入門到完整學習 邁向最強職場應用—王者歸來 (全彩印刷)
    29. Python最強入門邁向數據科學之路:王者歸來(全彩印刷第二版)
    30. Python網路爬蟲:大數據擷取、清洗、儲存與分析:王者歸來
    31. Python最強入門邁向頂尖高手之路:王者歸來(全彩版)
    32. Python 零基礎學程式設計與運算思維 -- 王者歸來
    33. Python零基礎學程式設計與運算思維:王者歸來
    34. Python GUI設計活用tkinter之路:火力加強版—王者歸來
    35. Python最強入門邁向數據科學之路:王者歸來
    36. PowerPoint 2016 入門與實作:王者歸來
    37. Python超零基礎最快樂學習之路:王者歸來
    38. 超極制霸:Word 強威速成秘典(2013以上版本適用)
    39. 專業聚焦 Computer Knowledge Today (第二版)
    40. Python GUI設計活用tkinter之路王者歸來
    41. Python零基礎最強入門之路:王者歸來
    42. All in One:Excel 2016 精粹版
    43. 超極制霸:Excel職場必備攻略 2013以上版本適用
    44. 超極制霸:PowerPoint速成精通祕典(2013以上版本適用)
    45. Java入門邁向高手之路-王者歸來
    46. Step by Step:Word 2013一點就通
    47. Python入門邁向高手之路王者歸來(附光碟)
    48. Word 2016入門與實作王者歸來
    49. Excel 2016入門與實作王者歸來
    50. Office 2013教學範本(第三版)
    51. C教學範本王者歸來
    52. HTML5+CSS3王者歸來(附光碟)
    53. 看圖例學 PowerPoint 2016 (附光碟)
    54. R語言:邁向Big Data之路(最新版)
    55. 邁向賭神之路:麻將必勝祕笈
    56. 精通 PowerPoint 2013
    57. 精通 Excel 2013
    58. Word 2013 教學範本(第二版)
    59. Word 2016 教學範本
    60. 看圖例學Excel 2016
    61. 超實用的office圖例必殺技
    62. Excel 2016 教學範本
    63. Excel 2013教學範本 (第三版)
    64. 一個人的極境旅行:南極大陸•北極海
    65. Excel 2010教學範本(第二版)
    66. 有圖有真相:逐介面精通Word 2013
    67. Excel 2013 教學範本(適用SiliconStone認證考試教材)
    68. PowerPoint 2013 教學範本(適用SiliconStone認證考試教材)
    69. Word 2013 教學範本
    70. R語言:邁向Big Data之路
    71. C/C++教學範本(第三版)
    72. Office 2013教學範本(第二版)
    73. Excel 2013教學範本(第二版)
    74. 這樣學習Mac OS X
    75. Word 2013 Silicon Stone 認證教科書
    76. Excel 2013 Silicon Stone 認證教科書
    77. PowerPoint 2013 Silicon Stone 認證教科書
    78. 通往Mac OS的高效捷徑
    79. 看圖例學Office 2013 (附光碟)
    80. C/C++教學範本(第二版)
    81. Office 2013教學範本(附光碟)
    82. 看圖例學Word 2013
    83. 看圖例學Excel 2013
    84. Excel 2013教學範本
    85. Mac OS X Mountain Lion使用手冊
    86. C教學範本(第二版)
    87. New iPad使用手冊
    88. Mac OS X Lion使用手冊
    89. Mac Office 2011中文版使用手冊(附範例CD)
    90. iPad2+越獄最新版使用手冊
    91. iPhone 最新版使用手冊+越獄JB
    92. iPhone 逍遙遊:妙手空空取寶藏
    93. Mac OS X Snow Leopard使用手冊
    94. 看圖例學iPhone 4
    95. 看圖例學Word 2010中文版
    96. iPhone 4使用手冊
    97. Office 2010教學範本
    98. 看圖例學OFFICE 2010(附光碟)
    99. Excel 2010教學範本(附光碟)
    100. 看圖例學EXCEL2010