系列 9/12 LLMOps可觀測性 生產級 LLM 可觀測性與評估:沒有 eval 的 agent,等於沒有測試的軟體 你改了一句 prompt、換了個模型,怎麼知道系統變好還是變壞?拆解 eval harness(黃金題庫、LLM-as-judge、回歸測試)、agent 的 tracing(每一步檢索/工具/模型的 span)、token 與成本監控,以... 技術 2026-05-23 2min