Agent memory 與狀態管理：short / long / episodic，以及記憶也有權限

從 PoC 到 Production：企業 AI Agent 系統工程第 7 / 12 篇

本篇是「從 PoC 到 Production：企業 AI Agent 系統工程」系列的第 7 / 12 篇。你可以從系列總覽開始閱讀，也可以直接接著看本文。

這是「從 PoC 到 Production：企業 AI Agent 系統工程」系列第 7 篇（共 12 篇）。上一篇：Tool use 與 MCP。

先釐清一個常被混在一起的概念：retrieval（檢索）和 memory（記憶）不是同一件事。

Retrieval（第 3–5 篇）：去公司的知識庫找「客觀的、共用的知識」。產品規格、SOP、法規——這些不屬於任何一個對話。
Memory（這篇）：記住「這個使用者、這個任務」的脈絡。他剛剛問過什麼、他偏好什麼、這個任務做到哪一步、試過哪些路。

把這兩個混在一起，是很多 agent 行為怪異的根源（該記的沒記、不該共用的亂共用）。這篇把記憶拆成三層講清楚，最後講一個最容易出包、卻最少人提的點：記憶也有權限。

為什麼需要 memory：LLM 天生健忘

LLM 本身是無狀態的。每次呼叫，它只看得到你這次塞進 context window 的東西。你不主動把上一輪對話帶進來，它就完全不記得三秒前說過什麼。

所以「記憶」從來不是模型的能力，是你在模型外面，自己蓋的一套系統。它的工作是：在每次呼叫前，決定「要把哪些過去的東西，塞進這次有限的 context」。記憶系統的好壞，就是這個決定做得好不好。

三種記憶，各司其職

1. 短期記憶（short-term）：這一輪對話

最直覺的一種——這次對話講過的話。實作上常常就是把對話歷史一路帶著走。

問題是 context window 有上限，而且越長越貴、越慢，品質還會隨長度退化。早年 Liu et al.（2023）的「lost in the middle」說的是一條 U 形曲線——開頭結尾記得牢、正中間掉到四成以下；但那是拿 2023 那批模型測的。到 2026，新模型在「單純的事實檢索」上大致補掉了中段這個洞，退化的形狀變了：不再是「中段最差」，而是輸入越長、整體越爛，而且開頭通常比結尾撐得久——業界現在叫它 context rot。

有人會說：2026 的視窗不是已經爆大了嗎？是。Claude 4.6 系列標準定價就吃 1M token、Gemini 上看 2M。但**「窗口大」不等於「可以全塞」**——成本、延遲、context rot 三件事全都隨長度惡化，所以記憶管理在 2026 是更重要，不是更不重要；窗口變大只是把「塞不下」的硬牆，換成「塞得下但又貴又笨」的軟坑。

而且不能全帶還有個更硬的理由：塞越多，模型在「需要推理、而非字面比對」的檢索上越容易出錯。Adobe Research 的 NoLiMa 評測故意把問題和答案的字面重疊拿掉、逼模型真的去推理，結果連 GPT-4o 都從短 context 的 99.3% 一路掉到 32K 長度的 69.7%。窗口大 ≠ 真的讀得懂中間那堆料。所以短期記憶不能無腦全帶，要管理：

截斷：只保留最近 N 輪。簡單但會忘掉開頭。
摘要：把比較舊的對話壓縮成摘要再帶。省 token，但摘要會流失細節。
混合：近期逐字保留 + 遠期摘要。實務上常見的折衷。

2. 長期記憶（long-term）：跨對話記得這個人

使用者三週前說過「我們公司用的是新台幣、財年從一月開始」，今天的新對話他不想再講一遍。長期記憶就是跨越單次對話、持久保存的那部分。

實作上，長期記憶常常就用向量庫存（呼應第 4 篇）：把值得記的事實向量化存起來，新對話開始時，依當前話題檢索出相關的長期記憶，塞進 context。你會發現——這在技術上幾乎就是「對這個使用者私有資料做的一次 RAG」。

關鍵設計問題是：什麼值得記？ 全記會越積越雜、檢索越來越不準。要有策略地萃取「值得長期記住的事實 / 偏好」，而不是把每句話都存。

而且「記」只是一半，另一半是**「忘」和「更新」**。使用者半年前說「我們財年從一月開始」，後來改了——舊記憶沒被覆蓋，今天就會拿過期資訊去推理，比沒記還糟。所以長期記憶不能只進不出：要能偵測衝突、覆蓋舊事實、定期淘汰沒再用到的記憶。一個只會累積、不會遺忘的記憶庫，最後會變成一個越來越自信地給你錯答案的系統。