身處 LLM 時代的必備技能?
AI 爬蟲與資料檢索的全本機工作流?
AI 爬蟲與資料檢索的全本機工作流?
你還在用傳統的方法爬取網路資料嗎?
還在手動分析 HTML 網頁結構、逐一定位網頁元素、再手刻爬蟲程式嗎?
身處 AI 世代,是時候該學習更聰明、更高效的資料收集方法,
讓你坐在電腦前,喝著咖啡、悠閒地看著 AI 為你自動爬取網路資料。
在 AI 飆速發展的今天,傳統網路爬蟲技術正迎來全新的變革。
過去,Python 爬蟲程式的開發者必須自行剖析 HTML 網頁結構,撰寫繁瑣複雜的資料擷取規則與步驟;如今,隨著 LLM 的普及,AI 已能協助我們理解 HTML 網頁結構、定位網頁資料,甚至能夠自動化建立整個爬取流程,大幅提升開發效率。
本書從 HTML 結構解析入門,循序講解 BeautifulSoup + CSS 選擇器、lxml + XPath 表達式、正規表達式等核心技術,再深入 Selenium 模擬瀏覽器互動及 Scrapy 爬蟲框架的專業應用,帶領讀者全面掌握靜態與動態網頁擷取技術。更進一步結合 Playwright 自動化瀏覽器、以及 AI 驅動的爬蟲框架 Crawl4AI 和 ScrapeGraphAI,讓 LLM 成為理解與提取網頁資料的主力。
不只如此,本書採用 n8n × Ollama 全本機架構,無需 API Key、無需 Docker,即可整合 SearXNG 搜尋引擎、Crawl4AI API 資料爬取、Qdrant 向量資料庫與 RAG 知識檢索生成,最終打造出 MCP + AI Agent 自動化流程 ? 從搜尋、爬取到資料處理與知識生成一手包辦!
本書特色
用 AI 分析 HTML 結構建立 Python 網路爬蟲
?全面掌握靜態與動態 HTML 網頁擷取技術,CSS Selector、XPath 一次上手
?實戰演練 BeautifulSoup、Selenium、Scrapy 經典 Python 爬蟲框架
Python × LLM 建立 AI 網路爬蟲
?整合 OpenAI、Gemini、Groq、Ollama 等多種 LLM,打造智慧爬蟲系統
?運用 AI 驅動的爬蟲技術 Crawl4AI 與 ScrapeGraphAI,自動理解並提取網頁內容
?結合非同步程式設計,提升資料抓取效率與彈性
整合 Python × AI 網路爬蟲的 AI 工作流程:n8n
?以視覺化介面建立自動化流程,輕鬆整合搜尋、爬取與資料處理
?結合 Qdrant 向量資料庫 × RAG 技術,打造個人化知識檢索系統
?構建全本機 AI Agent 工作流,實現從資料擷取到生成的自動化流程










