本片導讀的定位:忠實還原 Phil Hetzel(Braintrust)這場演講的核心論點,近期標準與工具僅作點綴穿插。
「o11y」是 observability(可觀測性)的縮寫——o + 中間 11 個字母 + y,唸作「Ollie」。
資料來源:YouTube 原片〈How agent o11y differs from traditional o11y〉;論點骨架對照 Braintrust 官方文章〈The Three Pillars of AI Observability〉。逐字稿因平台限制無法取得,內容皆有公開出處、未臆測。
解析 Phil Hetzel(Braintrust)演講〈How agent o11y differs from traditional o11y〉的核心論點,並穿插 2025–2026 的近期標準與工具
講者 Phil Hetzel 任職於 Braintrust——一個專注 AI 評估(evals)與可觀測性的平台。
演講的起手式:傳統可觀測性的核心問題是「系統還活著嗎?(is the system up?)」。講者主張,對 AI agent 而言,這不是對的問題。
這一頁先把「問錯問題」的張力立起來,後面逐一展開為什麼。
講者 Phil Hetzel 任職於 Braintrust(AI 評估與可觀測性平台)他的起點很直接:傳統可觀測性只回答一個問題——系統還活著嗎?對 AI agent 來說,這不是對的問題
來源:YouTube〈How agent o11y differs from traditional o11y — Phil Hetzel, Braintrust〉
說明本簡報如何分辨來源,避免把不同權威等級的內容混為一談——這是做影片研究簡報的慣例。
四層:①影片直接內容(最核心)②主講人/頻道背景 ③外部補充(2024–2026 近期案例,正面頁以菱形點標「近期案例」對應 ③ 的 lime 色)④AI 分析/推論(最低權威、需查證)。色塊對應後續頁面標示。
講者在這場演講實際提出的論點與數據
Phil Hetzel · Braintrust 的角色、專業與立場
2024–2026 近期標準與工具,正面頁標「近期案例」
我方整理與判斷,最低權威、建議獨立查證
主講人與來源的可信度評估表(做影片研究簡報必含)。重點:Phil Hetzel 是第一線從業者、論點可信,但 Braintrust 是廠商方,Brainstore 與平台評比帶自家立場,須中立看待。
核心數據(span 50KB、trace 10GB+)對照 Braintrust 官方文章可查;廠商宣稱(Luna-2 等)標為需獨立驗證。整體內容可信度:中高。
| 面向 | 評估 | 說明 |
|---|---|---|
| 主講人 | 第一線從業者 | Phil Hetzel,Braintrust 工程團隊,直接打造 AI 可觀測性產品 |
| 立場/利益 | 廠商方 | Braintrust 為 AI 評估/可觀測性平台;Brainstore、平台評比帶自家立場 |
| 內容依據 | 有出處 | 對照官方文章〈The Three Pillars of AI Observability〉,數據可查 |
| 時效 | 2024–2026 | 與 OpenTelemetry GenAI 語意慣例同步,屬近期內容 |
| 可驗證性 | 中–高 | 核心數據可查;廠商宣稱(如 Galileo Luna-2)需獨立驗證 |
| 偏誤風險 | 中 | 產品導向,可能淡化競品、強調自家架構優勢 |
結論頁:是否值得認真吸收。判斷=值得,但分兩種讀法:論點框架可直接吸收;具體數字與廠商宣稱另行查證再引用。
三個理由:①框架清晰(三支柱、追蹤目的轉變)②數據有出處 ③對應治理需求(可追溯/可驗證/人類監督)。提醒:廠商立場部分中立看待。
以「論點框架」吸收:問題重構、三支柱、追蹤目的轉變都站得住腳;具體數字與廠商宣稱則另行查證後再引用
把「為何 agent 不同」拆成可講、可記的結構
核心數字對照官方文章可查證,非空泛宣稱
可追溯/可驗證/人類監督,貼合資安院關注
廠商立場部分(Brainstore、平台評比、Luna-2 數字)建議中立看待並獨立查證
四段式結構:先講「為什麼 agent 不一樣」,再談「資料規模與隱私」帶來的平台挑戰,接著是「新架構與新使用者」,最後收束到 Braintrust 主張的「三支柱」。
近期案例(OTel 語意慣例、生態系採用、線上評估)會穿插在對應段落,不另闢章節。
確定性 → 機率性,以及追蹤目的的轉變
又大又含個資的原始輸入輸出
新的資料儲存,以及非技術讀者
追蹤 · 評估 · 標註
本頁為核心論點的重述(非逐字引用)。傳統可觀測性源自控制理論:用外部訊號推知系統內部狀態,重點在「系統是否正常運作」。
AI agent 是機率性的:同一輸入,依 prompt、模型、檢索與資料不同而產生不同輸出。所以該問的不是「活著嗎」,而是「剛才到底發生了什麼、結果好不好」。
傳統可觀測性問的是:系統還活著嗎?對 agent 來說,該問的是——剛才到底發生了什麼,而且結果好不好?
— 演講核心論點(重述,非逐字)
對照重點:傳統 o11y 面對確定性系統,instrument 程式路徑、抓 metrics/logs/traces,目標是找效能瓶頸。
Agent o11y 面對機率性、與資料耦合的系統:同一輸入可能不同輸出,重點從「找瓶頸」轉為「重建決策路徑、理解為何如此」。
來源:Braintrust〈The Three Pillars of AI Observability〉對傳統與 AI 可觀測性的對比。
傳統 o11y
instrument 程式路徑,蒐集 metrics、logs、traces;同一輸入給同一輸出,三大訊號各自分開查看
Agent o11y
同一輸入會因 prompt、模型、檢索而不同;追蹤要回答「呼叫了哪些工具、為什麼,怪異輸出時手上有什麼脈絡」
三個本質差異,是後面所有挑戰的根源。
機率性:輸出隨 prompt/模型/檢索/資料而變動。資料耦合:行為和脈絡資料綁在一起,光看程式碼路徑不夠。工具與控制流:一次請求跨越多次模型呼叫、工具呼叫與分支,trace 變成一棵樹。
同一輸入,依 prompt、模型、檢索與訓練資料而產生不同輸出
行為和脈絡、檢索內容緊密相連,不只是程式碼路徑的問題
一次請求橫跨多次模型呼叫、工具呼叫與控制流分支
關鍵轉變:在 AI 系統裡,追蹤(tracing)的主要目的,從「找效能瓶頸」變成「理解實際發生了什麼」。
下方 trace 樹為示意:一次請求被拆成 invoke_agent 根 span,底下掛多個 chat(模型呼叫)與 execute_tool(工具呼叫)。這正是「重建決策路徑」要看的東西。時間為示意非實測。
不再只是定位效能瓶頸,而是回答:呼叫了哪些工具、為什麼?模型怪異輸出時手上有什麼脈絡?一次請求會展開成一棵 span 樹
穿插補充(③ 外部補充):業界正收斂到 OpenTelemetry 的 GenAI 語意慣例,把追蹤標準化。
OpenTelemetry GenAI Observability SIG 自 2024/04 啟動;以 gen_ai.* 屬性標準化 LLM 呼叫,並定義 invoke_agent、execute_tool 等 span 類型;2025/08 進一步提出「agentic 系統」慣例。目前仍屬實驗階段,需以 OTEL_SEMCONV_STABILITY_OPT_IN 啟用。來源:opentelemetry.io。
OpenTelemetry 的 GenAI 可觀測性 SIG 自 2024/04 啟動,以 gen_ai.* 屬性標準化 LLM 呼叫,並定義 invoke_agent、execute_tool 等 span 類型;2025/08 再提出涵蓋 task、action、agent、team、memory 的「agentic 系統」慣例目前仍為實驗階段(需 OTEL_SEMCONV_STABILITY_OPT_IN 啟用),但方向已成共識:讓追蹤有共同語彙
進入第二段:資料規模與隱私。這是「為什麼傳統可觀測性平台會撐不住 AI」的根本原因。
下兩頁用兩個有出處的數字說明落差。
為什麼傳統可觀測性平台,會「撐不住」AI 的資料量
數字一:AI 追蹤的單一 span 平均約 50KB,傳統可觀測性的 span 約 900 bytes——相差約 55 倍(50,000 ÷ 900 ≈ 55)。
比例條讓落差「被看見」:傳統那條幾乎只是一條細縫。原因:AI 要把原始輸入/輸出都記下來。來源:Braintrust〈The Three Pillars of AI Observability〉。
同一個 span,AI 要把原始 prompt/回覆/工具參數都記下來,體積約差 55 倍來源:Braintrust
數字二:AI 系統的單一 trace 常見達 10GB 以上;而領先的傳統可觀測性平台,在 trace 超過約 100MB 時就會崩潰。
這說明「沿用舊平台」不是可行解——資料量級差了兩、三個數量級。來源:Braintrust 同上。
AI 系統常見的單一 trace 規模;傳統平台在 trace 超過約 100MB 時就會崩潰
規模之外的另一面:AI 追蹤記錄的是原始 prompt 與輸出,又大又常含個資(PII)。
對資安院的語境:這讓「全都記下來」同時是觀測需求、也是治理風險。措辭上避免絕對化——目標是降低風險、強化可追溯,而非宣稱「完全防護」。
原始 prompt/輸出常含客戶資料
預設只留中繼資料,不留內容
單一 trace 可達 10GB 以上
抽樣記錄並設定到期清除
除錯時把原始內容攤開給人看
去識別化 redaction + 權限分層
缺乏存取軌跡,事後無法追溯
留下查詢軌跡,支援事後稽核
穿插補充(③ 外部補充,呼應資安院關注):在 OTel GenAI 慣例下,預設只記錄中繼資料(模型名稱、token 數、延遲),不記錄 prompt 內容與工具參數。
若要開啟內容擷取,須先建立取樣、遮罩(redaction)、保存期限政策。對應可追溯、可驗證、人類監督。來源:opentelemetry.io。
在 OTel GenAI 慣例下,預設只記錄中繼資料(模型名稱、token 數、延遲),不記錄 prompt 內容與工具參數開啟內容擷取前,須先建立取樣、遮罩、保存期限政策——因為原始內容可能含個資這正對應資安院強調的可追溯、可驗證與人類監督
這些挑戰累積起來,逼出新的資料架構。講者所屬的 Braintrust 自建了 Brainstore——同時為「規模」與「易於自架(self-host)」而設計。
提醒(② 主講人立場):此為 Braintrust 自家產品,非中立評比;引用時可標明。
此為講者所屬 Braintrust 的自家產品,屬演講者立場、非中立比較
穿插補充(③ 外部補充):OTel GenAI 慣例正被廣泛採用——這降低了「被單一平台綁死」的風險。
三層架構:最底是共同資料平面(OTel gen_ai.*);中層觀測/評估平台直接吃這些 span;上層應用與工具(Agent 框架、coding agents)負責發出 span。換框架只需換 instrumentation。來源:opentelemetry.io、各廠商文件。
應用與工具層 發出 spans
Agent 框架(LangChain · CrewAI · AutoGen)、Coding agents(VS Code Copilot · OpenAI Codex · Claude Code,trace 為 beta)
觀測 / 評估平台層 消費 spans
Datadog(v1.37+)· Honeycomb · New Relic 直接吃 GenAI span,無需改碼
共同資料平面
OpenTelemetry GenAI 語意慣例(gen_ai.*)——換框架只需換 instrumentation,觀測管線不變
第三段的另一半:讀 trace 的,不再只有工程師。非技術使用者也用 AI 追蹤來理解使用者行為與產品互動。
因此 UX 挑戰升級:把 JSON 丟給人看遠遠不夠——追蹤必須易讀、且能主動提供洞察。來源:Braintrust 三支柱文章。
過去
把原始 JSON 丟給人除錯,門檻高、被動,非技術角色看不懂
現在
追蹤要易讀、能主動給出洞察,幫產品與營運理解使用者行為
收斂點:使用者不想在 metrics、logs、traces 三個割裂的介面間切換來拼湊全貌。
所以在 AI 裡,傳統可觀測性的「三大支柱」塌縮成同一件事——追蹤(tracing),成為理解行為的單一入口。來源:Braintrust 三支柱文章。
演講(與 Braintrust)主張的 AI 可觀測性三支柱,這裡畫成治理框架:頂帶治理目標、三柱能力、基座 AI 可觀測性。
追蹤 Traces——重建決策路徑。評估 Evals——量化表現(線上+離線)。標註 Annotation——把人的判斷灌回系統。頂帶的可信任/可追溯/可驗證/人類監督,是對應資安院治理語言的延伸詮釋。來源:Braintrust 三支柱文章。
重建一次請求的完整決策路徑:模型呼叫、工具、檢索、控制流
量化表現——線上(production)與離線(dev/CI)——了解應用做得好不好
為應用與評估器建立修正訊號,把人的判斷與使用者期待灌回系統
穿插補充(③ 外部補充):離線評估像「單元測試」,在開發期擋回歸;線上評估即時為 production 流量打分,偵測品質漂移。常見作法是 LLM-as-judge,並用取樣控制成本。
2026 進展:Galileo 的 Luna-2 宣稱可在 sub-200ms 延遲、較標準 LLM-as-judge 低 97% 成本下做全量評估;Langfuse 於 2026/01 被 ClickHouse 收購。這些為廠商宣稱,需獨立驗證。來源:各廠商 2026 文件/比較文。
離線評估像單元測試,在開發期擋回歸;線上評估即時為 production 流量打分以偵測品質漂移,常以 LLM-as-judge 搭配取樣控制成本2026 進展:Galileo Luna-2 宣稱可在 sub-200ms 延遲、較標準 LLM-as-judge 低 97% 成本下做全量評估;Langfuse 於 2026/01 被 ClickHouse 收購(廠商宣稱,建議獨立驗證)
一句話帶走:別再問「系統還活著嗎」,要問「剛才發生了什麼、好不好」。
具體拆解:Agent 可觀測性 = 追蹤決策路徑(Traces)+ 評估輸出品質(Evals)+ 用標註把人的判斷灌回(Annotation)。
Agent 可觀測性 = 追蹤決策路徑 + 評估輸出品質 + 用標註把人的判斷灌回系統
收尾頁:五個帶走的重點 + 資料來源,方便會後查證。
提醒聽眾:演講論點以 Braintrust 立場為主;近期案例的廠商數字(如 Luna-2、收購案)建議獨立查證。
資料來源: YouTube〈How agent o11y differs from traditional o11y — Phil Hetzel, Braintrust〉; Braintrust〈The Three Pillars of AI Observability〉; OpenTelemetry GenAI 語意慣例與 AI Agent Observability 部落格(opentelemetry.io,2024–2026); 各觀測/評估平台 2026 比較文(Datadog、Langfuse、Arize Phoenix、LangSmith、Galileo 等,部分為廠商立場,建議獨立驗證)