?? 一本搞定 LLM 看圖說故事與即時影像分析 ??
?? 十款熱門模型實際解決生活中 AI Vision 問題 ??
?? 用「自己的」資料集在本地端訓練 YOLO 模型 ??
?? 無痛設計 Web 互動介面,輕鬆部署 AI 模型 ??
?? 十款熱門模型實際解決生活中 AI Vision 問題 ??
?? 用「自己的」資料集在本地端訓練 YOLO 模型 ??
?? 無痛設計 Web 互動介面,輕鬆部署 AI 模型 ??
『AI Vision × LLM』劃開多模態應用的新時代
從輸入文字生成圖片,到上傳照片讓 LLM 看圖說故事,AI 電腦視覺技術結合 LLM 的多模態應用正席捲全球。但這些令人驚豔的應用背後,其實倚賴多項核心技術——包含物體偵測、人臉辨識、情緒與年齡分析、或是影像文字識別,以及對於文字的理解與生成,這才賦予 AI 真正「看懂」影像內容的能力。
實際解決現實生活中的 AI Vision 問題
帶領讀者以多款熱門模型如 YOLO、OpenCV DNN、MediaPipe、CVZone 3D、DeepFace、Dlib、LiteRT、EasyOCR,打造刷臉門禁系統、即時口罩偵測、微笑自拍、手勢操控投影片、AI 健身教練、車牌辨識、結帳櫃台人流與高速公路車流分析等多項實用專案,讓讀者親身體驗 AI Vision 在真實場景中的應用價值。
不僅會用,還能自行訓練專屬 AI 模型
讓你不只會活用現成的模型,還能自己動手標註資料並訓練屬於你的 YOLO 模型。並且透過 Streamlit 設計 Web 互動介面,將訓練成果部署為具備即時偵測與辨識功能的 Web 應用程式,實現從標註資料、模型訓練到應用上線的完整流程。
親手打造多模態 AI 應用,收穫滿滿成就感
整合前述 AI Vision 技術與大型語言模型(LLM),或運用 Ollama 的多模態工具 Llama-Vision,再搭配 Streamlit,即可實作出讓 LLM 分析影像內容或情境的 Web 智慧應用,例如路況分析或圖片描述,讓 AI 真正具備視覺理解與語意回應的能力。
零基礎也能無痛入門
本書主打「從做中學」的實作導向,即使沒有深厚的理論基礎,也能快速掌握 Python 的 AI 模型與實用套件。至於不熟悉的語法、函式用法、AI 模型原理,或是特定功能的程式碼編寫與修改,則交由 ChatGPT 給予我們即時協助,讓學習更有效率。
無論你是 AI 初學者還是開發者,本書都能帶你輕鬆入門、快速上手,從零開始打造專屬的 AI 專案,成為 AI Vision × LLM 的超酷玩家!??
本書特色
? 精選多款熱門 AI 模型,打造貼近生活情境的 AI Vision 實務應用
? 提供客製化 WinPython 可攜式套件,快速建立與書中一致的開發環境
? 支援 CPU / GPU,完整教學從資料標註到訓練與測試你自己的 YOLO 物體辨識模型
? 使用 LabelImg 工具,以人性化的方式進行影像資料集的標註作業
? 透過 Streamlit 快速打造 Web 互動介面,無需前端技能即可部署 AI 模型
? 整合 Llama-Vision,讓 LLM 在 Web 介面中看圖說故事、回答問題或分析影像內容
? 搭配 OpenCV 電腦視覺套件,實作物體、人臉、文字、車牌等偵測與辨識
? 探索 Mediapipe × CVZone 3D,實現 3D 視角的手勢辨識與姿態評估
?