內容介紹:
??隨著 Google Gemini 3 模型以及各式工具推出,在生成式 AI 的世界中 Google 強勢站穩腳步,再加上 Google 生態系的支援,採用 Google Gemini API 開發 AI Agent 是一個相當不錯的選擇。本書主要解說 Google Gemini API 中關鍵的成員,並利用 Python 版本的 Google GenAI SDK 實作範例,還會帶大家設計當前 AI Agent 的趨勢 -- Skills 機制,主題包含:
|簡易 Skills 機制|
現今 AI Agent 的共用規範標準就是 Skills,我們會帶大家實作一個簡單的 Skills 機制,讓你的 AI Agent 只要透過 markdown 檔,就可以讓非技術人員的一般使用者也可以客製自動化流程,或是搭配 CLI 工具與 MCP 伺服器等擴充模型能力,而不需要倚賴技術人員修改或是撰寫額外的程式碼。
|建構彈性的 MCP 系統|
即使有了 Skills 機制,也需要能夠實際完成任務的工具,MCP 就是其中之一。除此之外,MCP 也是擴充模型能力的好幫手,書中會設計讓使用者透過設定檔就能幫 AI Agent 串接各式功能 MCP 伺服器的機制,不論是要讀寫檔案、執行本機指令、操控瀏覽器,或是使用遠端 API 等等,都可以方便達成。
|Live API|
用講的絕對比用打的更快,書中會用 Live API 實作可隨時中斷插話的即時語音系統,讓你的 AI Agent 彷彿真人用講的就可以操控,而且還會自動記錄交談內容,維持前文脈絡,讓一般使用者透過口說介面就可以使用你的 AI Agent。
|把 Google 生態系當靠山|
網頁搜尋、找地點誰能比得過 Google,利用 Gemini API 內建工具即可直通 Google 搜尋與地圖,即時資訊一點都不漏,為模型補充新知識。
|多模態輸入/輸出|
讓你的 AI Agent 像是 NotebookLM 那樣看圖、看影片、聽語音,即使是 YouTube 影片,也可以直接丟連結自動處理。此外,透過 Gemini API,也可以用最強的 Nano Banana Pro 生圖、Veo 3.1 生影片通通沒問題。
|詳解 Function Calling 機制|
不論是要使用 MCP 伺服器或是 Skill 擴充模型功能、建置自動化流程,最終都需要倚賴 Function Calling 機制,因此在開發 AI Agent 時,最關鍵的就是把 Function Calling 架構好,對於 AI Agent 內建就要支援的功能,就可以利用 Function Calling 以自訂函式提供,效能遠勝需要傳輸成本的 MCP 伺服器與 Skill。有了這樣的基礎,還可以作為讓 MCP 協定妥善運作的基石。
|Interactions API|
Gemini API 提供有 Interactions API,可以像是 Live API 那樣幫你自動在雲端記錄交談內容保持前文脈絡不失憶,對於文字交談形式的 AI Agent 非常方便,不需要在程式碼這一端儲存對話記錄。
本書特色:
??□ 實作會打字就能無限擴充 Agent 功能的 Skills 機制
□ 建構修改設定檔就能串接各式功能的彈性 MCP 系統
□ 把 Google 生態系當靠山,網頁、地圖資訊百搜不漏
□ 用 Live API 實現隨時可插話的即時語音交談介面
□ 實現像 NotebookLM 一樣直接看懂 YouTube 影片的超能力
□ 用 Nano Banana Pro 生成高品質圖片、Veo 3.1 生成 4K 影片
□ 內建 URL Context 工具快速上傳文件實現 RAG 檢索系統
□ 讓模型用 Code Execution 工具寫程式搞定各種問題
□ 詳解實現 Agent 的最底層 Function calling 機制










