技術

從 PoC 到 Production：企業 AI Agent 系統工程

把 LLM/AI agent 從 PoC 推向 enterprise production 的系統工程實戰：RAG、向量檢索、tool use、記憶、多代理、可觀測性、治理與團隊落地。

12 篇文章約 103 分鐘閱讀更新於 2026-06-05

01

為什麼企業 AI Agent 卡在 PoC？從 demo 到 production 的六道鴻溝
兩天就做出一個會查資料、會呼叫 API 的 AI agent demo，老闆很興奮——然後它在 production 待了六個月還上不了線。這篇拆解 demo 到 production 之間最容易被低估的六道鴻溝，以及為什麼「能動」離「能信任」還很遠。

2026-04-21 8min
02

企業 AI Agent 系統架構藍圖：一張圖看懂能上 production 的 agent 長什麼樣
把上一篇的六道鴻溝收斂成一張參考架構：從 API Gateway、Agent Runtime、Tool Registry、權限感知檢索、Memory Store 到 Model Router 與可觀測性旁路。每個元件為什麼存在、少了它會出什麼事、以及怎麼跟你既有的後端整合而不是另起一座孤島。

2026-04-25 10min
03

RAG 架構實戰：從文件 ingestion 到 source-cited 回答的每一步
企業 RAG 不是「把文件丟進向量庫然後問問題」這麼簡單。從 ingestion、chunking 策略、embedding、檢索、reranking 到 source citation，拆解每一步的設計取捨與最常見的翻車點，以及為什麼「答案要附來源」是企業信任 AI 的第一道門檻。

2026-04-29 11min
04

向量資料庫與 embedding 策略：先別急著上 Pinecone，pgvector 可能就夠了
向量庫選型是 RAG 的地基，也是最容易過度工程的地方。pgvector vs 專用向量庫（Pinecone/Qdrant/Vectorize）怎麼選？embedding 模型與維度怎麼挑？什麼時候需要 hybrid search？HNSW 和 IVF 差在哪？用一張決策表和一個「先用 Postgres」的務實建議，幫你把地基打對。

2026-05-03 5min
05

權限感知檢索：企業 RAG 最難、也最容易被略過的一關
個人玩 RAG 不會遇到這個問題，但企業一定會撞牆：當不同權限的人問同一個 agent，它怎麼確保每個人只檢索得到自己有資格看的東西？拆解 pre-filter vs post-filter、權限繼承、機密分級、來源歸屬與多租戶隔離——這是把「能 demo」和「過得了資安」分開的那條線。

2026-05-07 10min
06

Tool use 與 MCP：當 agent 能動手操作系統，邊界該怎麼劃
Tool-using agent 真正可怕的地方，不是它會講錯話，是它能操作外部系統——改資料、送訂單、動設定。從 function calling 的本質、MCP 作為標準介面，到 action boundary、approval flow、idempotency 與 rollback，談怎麼讓 agent 戴著手套動手，而不是裸手亂抓。

2026-05-11 8min
07

Agent memory 與狀態管理：short / long / episodic，以及記憶也有權限
檢索是「公司的知識」，記憶是「這個使用者、這個任務的脈絡」，兩者不一樣。拆解短期、長期、episodic 三種記憶的用途與設計，context engineering 怎麼決定塞什麼進有限的視窗，以及一個最容易出包的點——A 使用者的記憶不能洩進 B 使用者的對話。

2026-05-15 8min
08

多代理協作：什麼時候真的需要 multi-agent，什麼時候那只是讓系統更貴
Multi-agent 聽起來很厲害，但大多數時候一個 agent 加好工具就夠了，而且更好 debug。談 supervisor/worker、pipeline、debate 等協作模式，handoff 怎麼傳 context，錯誤怎麼隔離不互相傳染，以及最重要的——什麼時候你「不」該用多代理。

2026-05-19 8min
09

生產級 LLM 可觀測性與評估：沒有 eval 的 agent，等於沒有測試的軟體
你改了一句 prompt、換了個模型，怎麼知道系統變好還是變壞？拆解 eval harness（黃金題庫、LLM-as-judge、回歸測試）、agent 的 tracing（每一步檢索/工具/模型的 span）、token 與成本監控，以及上線後怎麼偵測品質漂移。把後端的可觀測性硬功夫，搬到會講人話的元件上。

2026-05-23 8min
10

延遲、可靠性、成本：AI agent 系統設計的鐵三角
LLM app 還是個 distributed system，延遲、可靠性、成本這三件事會互相打架，你不可能三個都要到極致。談 streaming 降感知延遲、retry/timeout/circuit breaker、prompt 與結果快取、model routing（小模型優先）、token 成本治理，以及怎麼用工程手段在這個三角上做出有意識的取捨。

2026-05-27 8min
11

Agent 治理框架：讓企業敢把 AI agent 接到真實業務上的那張安全網
把散落在各章的安全與信任機制，收斂成一張可以攤給資安和主管看的治理框架：資料分級、RBAC 權限邊界、tool registry、audit log、human-in-the-loop、eval harness、observability、成本監控。這一張圖，就是「能 demo」和「企業敢用」之間那道治理的牆。

2026-05-31 10min
12

帶領一支 3–8 人的 AI 工程小隊：成功的關鍵不是追最新框架
一支小型 AI 工程團隊的成敗，不在於用了多潮的 framework，而在於有沒有建立一個可重複的 delivery loop。談 architecture/code/prompt/eval review 怎麼做、怎麼把 AI agent 的能力翻譯成 business stakeholder 聽得懂的 workflow impact 和 ROI、以及怎麼讓團隊在一個變化極快的領域裡持續交付。系列完結篇。

2026-06-04 9min

準備好開始了嗎？

從第一篇開始，循序漸進地掌握完整主題。

從第一篇開始

系列文章列表

準備好開始了嗎？