系列 10/12 系統設計成本優化 延遲、可靠性、成本:AI agent 系統設計的鐵三角 LLM app 還是個 distributed system,延遲、可靠性、成本這三件事會互相打架,你不可能三個都要到極致。談 streaming 降感知延遲、retry/timeout/circuit breaker、prompt 與結果... 技術 2026-05-27 2min
系列 11/14 Agentic EngineeringToken Token 經濟學進階:當 Agent 一天燒掉 $50,你怎麼控制成本 Agent 越強大,token 燒越快。深入 token 成本的結構分析——哪些任務是 token 黑洞、怎麼設計 context 降低消耗、caching 策略、model routing,以及月成本從 $287 降到 $148 的實際做... 技術 2026-05-22 1min
系列 13/15 Claude API成本優化 成本控制:省錢是一門工程藝術 從 Token 成本全貌、模型選擇策略、Prompt Caching 到 Batch API,系統性地把 AI 應用的成本降下來。一個真實 RAG 系統從每月 $2000 降到 $300 的完整過程。 技術 2026-05-22 1min
系列 7/15 Claude APIPrompt Caching Prompt Caching:降低 90% 重複成本的技術 為什麼 prompt caching 是最重要的成本優化技術;cache_control 用法;快取有效期與定價;適合 vs 不適合快取的內容;Python + TypeScript 實作;快取命中率監控;RAG 系統省錢案例。 技術 2026-04-10 2min