庫存狀況
「香港二樓書店」讓您 愛上二樓●愛上書
我的購物車 加入會員 會員中心 常見問題 首頁
「香港二樓書店」邁向第一華人書店
登入 客戶評價 whatsapp 常見問題 加入會員 會員專區 現貨書籍 現貨書籍 購物流程 運費計算 我的購物車 聯絡我們 返回首頁
香港二樓書店 > 今日好書推介
   
比利戰爭【完整新譯本】
  • 定價117.00元
  • 8 折優惠:HK$93.6
  • 放入購物車
二樓書籍分類
 
Python網路爬蟲:大數據擷取、清洗、儲存與分析:王者歸來

Python網路爬蟲:大數據擷取、清洗、儲存與分析:王者歸來

庫存=1
將於1個工作天內出貨
9789865501020
洪錦魁
深智數位
2019年10月20日
217.00  元
HK$ 184.45  






ISBN:9789865501020
  • 規格:平裝 / 560頁 / 17 x 23 x 2.8 cm / 普通級 / 單色印刷 / 初版
  • 出版地:台灣


  • 電腦資訊 > 程式設計 > SQL

















      這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約350個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識,下列是本書有關網路爬蟲知識的主要內容。



      # 認識搜尋引擎與網路爬蟲

      # 認識約定成俗的協議robots.txt

      # 從零開始解析HTML網頁

      # 認識與使用Chrome開發人員環境解析網頁

      # 認識Python內建urllib、urllib2模組,同時介紹好用的requests模組

      # 說明lxml模組

      # Selenium模組

      # XPath方法解說

      # css定位網頁元素

      # Cookie觀念

      # 自動填寫表單

      # 使用IP代理服務與實作

      # 偵測IP

      # 更進一步解說更新的模組Requests-HTML

      # 認識適用大型爬蟲框架的Scrapy模組



      在書籍內容,本書設計爬蟲程式探索下列相關網站,讀者可以由不同的網站主題,深入測試自己設計網路爬蟲的能力,以適應未來職場的需求。



      # 金融資訊

      # 股市數據

      # 人力銀行

      # 交友網站

      # 維基網站

      # 主流媒體網站

      # 政府開放數據網站

      # 社群服務網站

      # PTT網站

      # 電影網站

      # 星座網站

      # 小說網站

      # 台灣高鐵

      # 露天拍賣網站

      # httpbin網站

      # python.org網站

      # github.com網站

      # ipstack.com網站API實作

      # Google API實作

      # Facebook API實作



      探索網站成功後,本書也說明下列如何下載或儲存不同資料格式的數據。



      # CSV檔案格式

      # JSON檔案格式

      # XML、Pickle

      # Excel

      # SQLite資料庫



      本書沿襲作者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計。

    ?


     





    第零章 認識網路爬蟲

    0-1 認識HTML

    0-2 網路地址URL

    0-3 爬蟲的類型

    0-4 搜尋引擎與爬蟲原理

    0-5 網路爬蟲的搜尋方法

    0-6 網路爬蟲是否合法

    0-7 認識HTTP 與HTTPS

    0-8 表頭(headers)



    第一章 JSON 資料與繪製世界地圖

    1-1 JSON 資料格式前言

    1-2 認識json 資料格式

    1-3 將Python 應用在json 字串形式資料

    1-4 將Python 應用在json 檔案

    1-5 簡單的json 檔案應用

    1-6 世界人口數據的json 檔案

    1-7 繪製世界地圖

    1-8 XML



    第二章 使用Python 處理CSV 文件

    2-1 建立一個CSV 文件

    2-2 用記事本開啟CSV 檔案

    2-3 csv 模組

    2-4 讀取CSV 檔案

    2-5 寫入CSV 檔案

    2-6 專題- 使用CSV 檔案繪製氣象圖表

    2-7 pickle 模組

    2-8 Python 與Microsoft Excel



    第三章 網路爬蟲基礎實作

    3-1 上網不再需要瀏覽器了

    3-2 下載網頁資訊使用requests 模組

    3-3 檢視網頁原始檔

    3-4 分析網站使用Chrome 開發人員工具

    3-5 下載網頁資訊使用urllib 模組

    3-6 認識httpbin 網站

    3-7 認識Cookie

    3-8 設置代理IP



    第四章 Pandas 模組

    4-1 Series

    4-2 DataFrame

    4-3 基本Pandas 資料分析與處理

    4-4 檔案的輸入與輸出

    4-5 Pandas 繪圖

    4-6 時間序列(Time Series)

    4-7 專題 鳶尾花

    4-8 專題 匯入網頁表格資料



    第五章 Beautiful Soup 解析網頁

    5-1 解析網頁使用BeautifulSoup 模組

    5-2 其它HTML 文件解析

    5-3 網路爬蟲實戰 圖片下載

    5-4 網路爬蟲實戰 找出台灣彩券公司最新一期威力彩開獎結果

    5-5 網路爬蟲實戰 列出Yahoo 焦點新聞標題和超連結

    5-6 IP 偵測網站FileFab



    第六章 網頁自動化

    6-1 hashlib 模組

    6-2 環保署空氣品質JSON 檔案實作

    6-3 檢測網站內容是否更新

    6-4 工作排程與自動執行

    6-5 環保署空氣品質的CSV 檔案



    第七章 Selenium 網路爬蟲的王者

    7-1 順利使用Selenium 工具前的安裝工作

    7-2 獲得webdriver 的物件型態

    7-3 擷取網頁

    7-4 尋找HTML 文件的元素

    7-5 XPath 語法

    7-6 用Python 控制點選超連結

    7-7 用Python 填寫表單和送出

    7-8 用Python 處理使用網頁的特殊按鍵

    7-9 用Python 處理瀏覽器運作

    7-10 自動進入Google 系統

    7-11 自動化下載環保署空氣品質資料



    第八章 PTT 爬蟲實戰

    8-1 認識批踢踢實業坊

    8-2 進入PTT 網址

    8-3 解析PTT 進入須滿18 歲功能鈕

    8-4 各篇文章的解析

    8-5 解析文章標題與作者

    8-6 推文數量

    8-7 文章發表日期

    8-8 將PTT 目前頁面內容以JSON 檔案儲存

    8-9 前一頁面處理的說明

    8-10 進入PPT 的Beauty 論壇網站

    8-11 ipstack



    第九章 Yahoo 奇摩電影網站

    9-1 本週新片

    9-2 中文片名和英文片名

    9-3 上映日期

    9-4 期待度

    9-5 影片摘要

    9-6 劇照海報

    9-7 爬取兄弟節點

    9-8 預告片

    9-9 排行榜



    第十章 台灣主流媒體網站

    10-1 蘋果日報

    10-2 聯合報

    10-3 經濟日報

    10-4 中國時報

    10-5 工商時報



    第十一章 Python 與SQLite 資料庫

    11-1 SQLite 基本觀念

    11-2 資料庫連線

    11-3 SQLite 資料類型

    11-4 建立SQLite 資料庫表單

    11-5 增加SQLite 資料庫表單紀錄

    11-6 查詢SQLite 資料庫表單

    11-7 更新SQLite 資料庫表單紀錄

    11-8 刪除SQLite 資料庫表單紀錄

    11-9 DB Browser for SQLite

    11-10 將台北人口數儲存SQLite 資料庫



    第十二章 股市數據爬取與分析

    12-1 證券櫃檯買賣中心

    12-2 台灣證券交易所

    12-3 Google 全球股市資訊

    12-4 Yahoo 股市資訊

    12-5 台灣股市資料讀取與圖表製作



    第十三章 金融資訊的應用

    13-1 台灣銀行利率查詢

    13-2 取得HTML 文件

    13-3 分析HTML 文件

    13-4 將利率表儲存成CSV 檔案

    13-5 取得最優惠利率

    13-6 基金資料



    第十四章 Dcard 社群服務網站

    14-1 進入網站

    14-2 分析網站

    14-3 抓取預設的熱門貼文

    14-4 爬取更多Dcard 熱門文章



    第十五章 星座屋網站

    15-1 進入星座屋網站

    15-2 分析網站與爬取星座運勢文字

    15-3 星座圖片的下載



    第十六章 小說網站

    16-1 進入小說網站

    16-2 解析網頁

    16-3 處理編碼問題

    16-4 爬取書籍章節標題

    16-5 爬取章節內容的連結

    16-6 從章節超連結輸出小說內容

    16-7 將小說內文存入檔案



    第十七章 台灣高鐵網站

    17-1 查詢台灣高鐵的站名

    17-2 時刻表查詢



    第十八章 維基百科

    18-1 維基百科的中文網址

    18-2 爬取台積電主文資料

    18-3 台積電的簡史

    18-4 URL 編碼



    第十九章 Python 與Facebook

    19-1 Facebook 圖形API

    19-2 facebook-sdk 存取資料的應用



    第二十章 Google API

    20-1 申請Google API 金鑰

    20-2 基本操作Google Map

    20-3 爬蟲擷取Google 地理資訊

    20-4 地理資訊的基本應用

    20-5 找尋指定區域內的景點



    第二十一章 Yahoo 拍賣網站

    21-1 Yahoo 拍賣網站

    21-2 分析網頁與單個商品搜尋

    21-3 系列商品搜尋



    第二十二章 Hotels.com 旅宿網站

    22-1 Hotels.com 旅宿網站

    22-2 解析輸入表單

    22-3 獲得查詢資料

    22-4 列出一系列所找到的旅館



    第二十三章 交友網站

    23-1 進入交友網站

    23-2 分析網頁

    23-3 爬取第一筆資料

    23-4 將爬取的資料儲存至CSV 檔案

    23-5 爬取與儲存Ajax 加載的頁面

    23-6 教育程度分析

    23-7 身高分析

    23-8 年齡分析



    第二十四章 Requests-HTML 模組

    24-1 安裝與導入

    24-2 使用者請求Session

    24-3 認識回傳資料型態與幾個重要屬性

    24-4 數據清洗與爬取

    24-5 搜尋豆瓣電影網站

    24-6 Ajax 動態數據加載



    第二十五章 人力銀行網站

    25-1 認識人力銀行網頁

    25-2 分析與設計簡單的爬蟲程式

    25-3 更進一步分析網頁



    第二十六章 Scrapy

    26-1 安裝Scrapy

    26-2 從簡單的實例開始 - 建立Scrapy 專案

    26-3 Scrapy 定位元素

    26-4 使用cookie 登入

    26-5 保存文件為JSON 和CSV 檔案

    26-6 Scrapy 架構圖

    26-7 專題爬取多頁PTT 資料



    ?







    ?

      這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約350個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識。

    ?

      在Internet時代,所有數據皆在網路呈現,從網路獲得資訊已經成為我們日常生活的一部份。然而如何從網路上獲得隱性的數據資訊,更進一步將此數據資訊做擷取、清洗、儲存與分析的有效應用,已經是資訊科學非常重要的領域,目前國內作者這方面著作不多,同時內容單薄,這也是筆者撰寫本書的動力。本書保持筆者一貫特色,實例豐富,容易學習,有系統的一步一步引導讀者深入不同網站主題,進行探索,下列是本書有關網路爬蟲知識的主要內容。

    ?

      □認識搜尋引擎與網路爬蟲

      □認識約定成俗的協議robots.txt

      □從零開始解析HTML網頁

      □認識與使用Chrome開發人員環境解析網頁

      □認識Python內建urllib、urllib2模組,同時介紹好用的requests模組

      □說明lxml模組

      □Selenium模組

      □XPath方法解說

      □css定位網頁元素

      □Cookie觀念

      □自動填寫表單

      □使用IP代理服務與實作

      □偵測IP

      □更進一步解說更新的模組Requests-HTML

      □認識適用大型爬蟲框架的Scrapy模組

    ?

      在書籍內容,筆者設計爬蟲程式探索下列相關網站。

    ?

      □金融資訊

      □股市數據

      □人力銀行

      □交友網站

      □維基網站

      □主流媒體網站

      □政府開放數據網站

      □社群服務網站

      □PTT網站

      □電影網站

      □星座網站

      □小說網站

      □台灣高鐵

      □露天拍賣網站

      □httpbin網站

      □python.org網站

      □github.com網站

      □ipstack.com網站API實作

      □Google API實作

      □Facebook API實作

    ?

      探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據。

    ?

      □CSV檔案格式

      □JSON檔案格式

      □XML、Pickle

      □Excel

      □SQLite

    ?

      在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題。

      □URL編碼與中文網址觀念

      □將中文儲存在JSON格式檔案

      □亂碼處理

      □簡體中文在繁體中文Windows環境資料下載與儲存

      □解析Ajax動態加載網頁,獲得更多頁次資料

      □使用Chromium瀏覽器協助Ajax動態加載

    ?

      註:讀者需了解網路爬蟲是針對特定網站擷取特定資料,本書所有程式雖經測試,在撰寫當下是正確,筆者同時列出執行結果。但是,如果網站結構改變,可能造成程式失效。

    ?

      寫過許多的電腦書著作,本書沿襲筆者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計,編著本書雖力求完美,但是學經歷不足,謬誤難免,尚祈讀者不吝指正。
    ?

    洪錦魁2019-10-15

    jiinkwei@me.com




    其 他 著 作
    1. Python x AI辦公室作業自動化:Word、Excel、PowerPoint、PDF、CSV、Pandas-多執行緒、排程、藝術二維碼、短網址、電子郵件、爬蟲
    2. ChatGPT 4 Omni領軍 - Copilot、Claude、Gemini、36組GPT ...全面探索生成式AI的無限可能
    3. AI繪圖邁向視覺設計
    4. 演算法 圖解原理 x Python實作 x 創意應用 王者歸來(四版)
    5. 演算法 圖解原理 x Python實作 x 創意應用 王者歸來(四版)
    6. 演算法 圖解原理 x Python實作 x 創意應用 王者歸來(四版)
    7. 全彩 x 最新 x 最全 x 最強 Excel公式 + 函數 創意實例
    8. 無料AI:ChatGPT+Gemini+Claude+Copilot+Coze+PlaygroundAI+Ideogram+Stylar+Faceswapper+Suno+Stable Audio+D-ID+Runway+Sora+Gamma-「文字、繪圖、動漫、視覺、音樂、影片、簡報」創意無限(二版)
    9. AI助攻 Python超級入門 創意設計 x AI程式實作
    10. AI輔助學習 Excel VBA最強入門邁向辦公室自動化之路王者歸來 上冊(二版)
    11. AI輔助學習 Excel VBA最強入門邁向辦公室自動化之路王者歸來 下冊(二版)
    12. AI行銷:未來商業新視界 AI Marketing - A New Vision for Future Business
    13. AI職場:智慧浪潮的工作新規則
    14. AI職場:智慧浪潮的工作新規則
    15. 世界第1強 AI ChatGPT Turbo 自學魔法寶典- Data Analyst +GPTs + DALL-E + Copilot + Prompt +Midjourney + Suno + D-ID + Runway + Gamma (頂級雪銅紙全彩印刷版)
    16. 世界第1強AI ChatGPT Turbo自學魔法寶典:Data Analyst +GPTs + DALL-E + Copilot + Prompt +Midjourney + Suno + D-ID + Runway + Gamma(頂級雪銅紙全彩印刷版)
    17. 無料AI:ChatGPT + Bard + Claude + Bing + Copilot + PlaygroundAI + Ideogram + Suno + D-ID + Runway + Gamma -「文字、繪圖、視覺、音樂、影片、簡報」創意無限
    18. Python + ChatGPT 零基礎+高效率學程式設計與運算思維(第四版)
    19. 史上最強Python入門邁向頂尖高手之路王者歸來 第3版(全彩印刷)
    20. 史上最強Python入門邁向頂尖高手之路王者歸來 第3版(全彩印刷)
    21. Bing Chat與Copilot邁向文字、視覺、繪圖、語音、程式的AI體驗王者歸來(全彩印刷)
    22. Excel x ChatGPT入門到完整學習邁向最強職場應用王者歸來(全彩印刷)
    23. ChatGPT 4 + API創新體驗AI世界邁向開發機器人程式王者歸來(全彩印刷)
    24. ChatGPT-4 與Bing Chat:創新體驗文字/繪圖/音樂/動畫/影片的AI世界
    25. 機器學習最強入門 - 基礎數學�機率�統計邁向AI真實數據專題實作 - 王者歸來
    26. 機器學習最強入門 - 基礎數學/機率/統計邁向AI真實數據專題實作 - 王者歸來
    27. Python 資料視覺化從 2D 到 3D 使用 matplotlib 實作 - 王者歸來 (全彩印刷)
    28. Python資料視覺化從2D到3D使用matplotlib實作 - 王者歸來(全彩印刷)
    29. Python:最強入門ChatGPT助攻邁向數據科學之路 - 王者歸來(全彩印刷第四版)【首刷獨家限量贈品-程式語言濾掛式咖啡包】
    30. AI和ChatGPT 人類和機器共生的未來
    31. AI和ChatGPT 人類和機器共生的未來
    32. Python + ChatGPT 零基礎 + 高效率學程式設計與運算思維, 3/e
    33. Python + ChatGPT 零基礎+高效率學程式設計與運算思維 (第三版)
    34. Power BI最強入門:AI視覺圖表 + 智慧決策 + 雲端分享 王者歸來(全彩印刷) (第二版)
    35. ChatGPT領軍 DALL-E 2 + Midjourney + D-ID + Synthesia:邁向AI文字、圖像、影片之路(全彩印刷)
    36. C#最強入門邁向頂尖高手之路王者歸來
    37. Notion 打造你的高效數位人生 王者歸來
    38. Python視窗GUI設計 活用tkinter之路 王者歸來(第四版)
    39. 演算法:圖解邏輯思維 + Python程式實作 王者歸來
    40. 邁向賭神之路:麻將必勝秘笈(第二版)
    41. 邁向賭神之路:麻將必勝秘笈(第二版)贈品版
    42. Python-最強入門邁向數據科學之路:王者歸來(全彩印刷第三版)
    43. Python操作Excel:最強入門邁向辦公室自動化之路 王者歸來
    44. C最強入門邁向頂尖高手之路王者歸來
    45. C最強入門邁向頂尖高手之路王者歸來
    46. matplotlib 2D到3D資料視覺化王者歸來(全彩印刷)
    47. OpenCV影像創意邁向AI視覺王者歸來(全彩印刷)
    48. Python網路爬蟲:大數據擷取、清洗、儲存與分析 王者歸來(第二版)
    49. Excel入門到完整學習 邁向最強職場應用 王者歸來 (全彩印刷)第二版
    50. 機器學習:彩色圖解+基礎微積分+Python實作 王者歸來(第三版) (全彩印刷)
    51. 最完整跨平台網頁設計:HTML + CSS + JavaScript + jQuery + Bootstrap + Google Maps王者歸來(第二版)(全彩印刷)
    52. Power BI入門 大數據視覺化 + 智慧決策 + 雲端分享 王者歸來(全彩印刷)
    53. Excel VBA最強入門邁向辦公室自動化之路王者歸來上冊
    54. Excel VBA最強入門邁向辦公室自動化之路王者歸來下冊
    55. 機器學習:彩色圖解 + 基礎微積分 + Python實作 王者歸來(第二版)
    56. 機器學習:彩色圖解 + 基礎數學篇 + Python實作 王者歸來(第二版)
    57. Excel函數庫最完整職場商業應用 王者歸來
    58. 機器學習:彩色圖解 + 基礎微積分 + Python實作 王者歸來(全彩)
    59. 演算法:最強彩色圖鑑 + Python程式實作 王者歸來(第二版)
    60. R語言邁向Big Data之路:王者歸來(第二版)
    61. Python零基礎學程式設計與運算思維:王者歸來 (第二版)
    62. Java最強入門邁向頂尖高手之路:王者歸來(第二版)全彩版
    63. Python最強入門邁向頂尖高手之路:王者歸來(第二版)全彩版
    64. 機器學習:彩色圖解 + 基礎數學篇 + Python實作 王者歸來(全彩)
    65. 最完整跨平台網頁設計:HTML + CSS + JavaScript + jQuery + Bootstrap + Google Maps(全彩印刷)
    66. Python面試題目與解答:邁向高薪之路
    67. Python邁向領航者之路:超零基礎(全彩印刷)
    68. 演算法:最強彩色圖鑑 + Python程式實作 王者歸來(全彩印刷)
    69. Python GUI設計活用tkinter之路(第三版):王者歸來
    70. Excel 入門到完整學習 邁向最強職場應用—王者歸來 (全彩印刷)
    71. Python最強入門邁向數據科學之路:王者歸來(全彩印刷第二版)
    72. Python最強入門邁向頂尖高手之路:王者歸來(全彩版)
    73. Python 零基礎學程式設計與運算思維 -- 王者歸來
    74. Python零基礎學程式設計與運算思維:王者歸來
    75. Python GUI設計活用tkinter之路:火力加強版—王者歸來
    76. Python最強入門邁向數據科學之路:王者歸來
    77. PowerPoint 2016 入門與實作:王者歸來
    78. Python超零基礎最快樂學習之路:王者歸來
    79. 超極制霸:Word 強威速成秘典(2013以上版本適用)
    80. 專業聚焦 Computer Knowledge Today (第二版)
    81. Python GUI設計活用tkinter之路王者歸來
    82. Python零基礎最強入門之路:王者歸來
    83. All in One:Excel 2016 精粹版
    84. 超極制霸:Excel職場必備攻略 2013以上版本適用
    85. 超極制霸:PowerPoint速成精通祕典(2013以上版本適用)
    86. Java入門邁向高手之路-王者歸來
    87. Step by Step:Word 2013一點就通
    88. Python入門邁向高手之路王者歸來(附光碟)
    89. Word 2016入門與實作王者歸來
    90. Excel 2016入門與實作王者歸來
    91. Office 2013教學範本(第三版)
    92. C教學範本王者歸來
    93. HTML5+CSS3王者歸來(附光碟)
    94. 看圖例學 PowerPoint 2016 (附光碟)
    95. R語言:邁向Big Data之路(最新版)
    96. 邁向賭神之路:麻將必勝祕笈
    97. 精通 PowerPoint 2013
    98. 精通 Excel 2013
    99. Word 2013 教學範本(第二版)
    100. Word 2016 教學範本