標籤：Eval | Bobo 的學思山丘

系列 9/12 LLMOps可觀測性

你改了一句 prompt、換了個模型，怎麼知道系統變好還是變壞？拆解 eval harness（黃金題庫、LLM-as-judge、回歸測試）、agent 的 tracing（每一步檢索/工具/模型的 span）、token 與成本監控，以...

技術 2026-05-23

2min

符合「Eval」標籤的文章