本片導讀的定位:忠實還原 Phil Hetzel(Braintrust)這場演講的核心論點,近期標準與工具僅作點綴穿插。

「o11y」是 observability(可觀測性)的縮寫——o + 中間 11 個字母 + y,唸作「Ollie」。

資料來源:YouTube 原片〈How agent o11y differs from traditional o11y〉;論點骨架對照 Braintrust 官方文章〈The Three Pillars of AI Observability〉。逐字稿因平台限制無法取得,內容皆有公開出處、未臆測。

影片導讀 · AI 可觀測性 · 2026

Agent 的可觀測性,和傳統不一樣

解析 Phil Hetzel(Braintrust)演講〈How agent o11y differs from traditional o11y〉的核心論點,並穿插 2025–2026 的近期標準與工具

講者 Phil Hetzel 任職於 Braintrust——一個專注 AI 評估(evals)與可觀測性的平台。

演講的起手式:傳統可觀測性的核心問題是「系統還活著嗎?(is the system up?)」。講者主張,對 AI agent 而言,這不是對的問題。

這一頁先把「問錯問題」的張力立起來,後面逐一展開為什麼。

講題背景

一場關於「我們到底在觀測什麼」的重新定義

講者 Phil Hetzel 任職於 Braintrust(AI 評估與可觀測性平台)他的起點很直接:傳統可觀測性只回答一個問題——系統還活著嗎?對 AI agent 來說,這不是對的問題

來源:YouTube〈How agent o11y differs from traditional o11y — Phil Hetzel, Braintrust〉

說明本簡報如何分辨來源,避免把不同權威等級的內容混為一談——這是做影片研究簡報的慣例。

四層:①影片直接內容(最核心)②主講人/頻道背景 ③外部補充(2024–2026 近期案例,正面頁以菱形點標「近期案例」對應 ③ 的 lime 色)④AI 分析/推論(最低權威、需查證)。色塊對應後續頁面標示。

如何閱讀本簡報

四層來源,分開標示

① 影片直接內容

講者在這場演講實際提出的論點與數據

② 主講人/頻道背景

Phil Hetzel · Braintrust 的角色、專業與立場

③ 外部補充資料

2024–2026 近期標準與工具,正面頁標「近期案例」

④ AI 分析/推論

我方整理與判斷,最低權威、建議獨立查證

主講人與來源的可信度評估表(做影片研究簡報必含)。重點:Phil Hetzel 是第一線從業者、論點可信,但 Braintrust 是廠商方,Brainstore 與平台評比帶自家立場,須中立看待。

核心數據(span 50KB、trace 10GB+)對照 Braintrust 官方文章可查;廠商宣稱(Luna-2 等)標為需獨立驗證。整體內容可信度:中高。

來源評估

主講人與來源:可信度評估

面向評估說明
主講人第一線從業者Phil Hetzel,Braintrust 工程團隊,直接打造 AI 可觀測性產品
立場/利益廠商方Braintrust 為 AI 評估/可觀測性平台;Brainstore、平台評比帶自家立場
內容依據有出處對照官方文章〈The Three Pillars of AI Observability〉,數據可查
時效2024–2026與 OpenTelemetry GenAI 語意慣例同步,屬近期內容
可驗證性中–高核心數據可查;廠商宣稱(如 Galileo Luna-2)需獨立驗證
偏誤風險產品導向,可能淡化競品、強調自家架構優勢

結論頁:是否值得認真吸收。判斷=值得,但分兩種讀法:論點框架可直接吸收;具體數字與廠商宣稱另行查證再引用。

三個理由:①框架清晰(三支柱、追蹤目的轉變)②數據有出處 ③對應治理需求(可追溯/可驗證/人類監督)。提醒:廠商立場部分中立看待。

判斷

是否值得認真吸收

值得

以「論點框架」吸收:問題重構、三支柱、追蹤目的轉變都站得住腳;具體數字與廠商宣稱則另行查證後再引用

理由 01

框架清晰

把「為何 agent 不同」拆成可講、可記的結構

理由 02

數據有出處

核心數字對照官方文章可查證,非空泛宣稱

理由 03

對應治理

可追溯/可驗證/人類監督,貼合資安院關注

廠商立場部分(Brainstore、平台評比、Luna-2 數字)建議中立看待並獨立查證

四段式結構:先講「為什麼 agent 不一樣」,再談「資料規模與隱私」帶來的平台挑戰,接著是「新架構與新使用者」,最後收束到 Braintrust 主張的「三支柱」。

近期案例(OTel 語意慣例、生態系採用、線上評估)會穿插在對應段落,不另闢章節。

議程

四個段落

01

為什麼 agent 不一樣

確定性 → 機率性,以及追蹤目的的轉變

02

資料規模與隱私

又大又含個資的原始輸入輸出

03

新架構與新使用者

新的資料儲存,以及非技術讀者

04

三支柱

追蹤 · 評估 · 標註

本頁為核心論點的重述(非逐字引用)。傳統可觀測性源自控制理論:用外部訊號推知系統內部狀態,重點在「系統是否正常運作」。

AI agent 是機率性的:同一輸入,依 prompt、模型、檢索與資料不同而產生不同輸出。所以該問的不是「活著嗎」,而是「剛才到底發生了什麼、結果好不好」。

傳統可觀測性問的是:系統還活著嗎?對 agent 來說,該問的是——剛才到底發生了什麼,而且結果好不好?

— 演講核心論點(重述,非逐字)

對照重點:傳統 o11y 面對確定性系統,instrument 程式路徑、抓 metrics/logs/traces,目標是找效能瓶頸。

Agent o11y 面對機率性、與資料耦合的系統:同一輸入可能不同輸出,重點從「找瓶頸」轉為「重建決策路徑、理解為何如此」。

來源:Braintrust〈The Three Pillars of AI Observability〉對傳統與 AI 可觀測性的對比。

對照

從「系統是否正常」到「決策是否合理

傳統 o11y

確定性系統,找效能瓶頸

instrument 程式路徑,蒐集 metrics、logs、traces;同一輸入給同一輸出,三大訊號各自分開查看

Agent o11y

機率性、與資料耦合,重建決策路徑

同一輸入會因 prompt、模型、檢索而不同;追蹤要回答「呼叫了哪些工具、為什麼,怪異輸出時手上有什麼脈絡」

三個本質差異,是後面所有挑戰的根源。

機率性:輸出隨 prompt/模型/檢索/資料而變動。資料耦合:行為和脈絡資料綁在一起,光看程式碼路徑不夠。工具與控制流:一次請求跨越多次模型呼叫、工具呼叫與分支,trace 變成一棵樹。

為什麼

Agent 系統的三個本質差異

01

機率性

同一輸入,依 prompt、模型、檢索與訓練資料而產生不同輸出

02

與資料耦合

行為和脈絡、檢索內容緊密相連,不只是程式碼路徑的問題

03

工具與控制流

一次請求橫跨多次模型呼叫、工具呼叫與控制流分支

關鍵轉變:在 AI 系統裡,追蹤(tracing)的主要目的,從「找效能瓶頸」變成「理解實際發生了什麼」。

下方 trace 樹為示意:一次請求被拆成 invoke_agent 根 span,底下掛多個 chat(模型呼叫)與 execute_tool(工具呼叫)。這正是「重建決策路徑」要看的東西。時間為示意非實測。

追蹤 Tracing

追蹤的目的,從「找瓶頸」變成「搞懂發生什麼

不再只是定位效能瓶頸,而是回答:呼叫了哪些工具、為什麼?模型怪異輸出時手上有什麼脈絡?一次請求會展開成一棵 span 樹

TRACE · 一次客服 Agent 請求(示意)span tree
  • chat模型呼叫 · 判斷意圖~320 ms
  • execute_toolsearch_kb()~180 ms
  • chat模型呼叫 · 生成回覆~410 ms
  • execute_toolcreate_ticket()~90 ms

穿插補充(③ 外部補充):業界正收斂到 OpenTelemetry 的 GenAI 語意慣例,把追蹤標準化。

OpenTelemetry GenAI Observability SIG 自 2024/04 啟動;以 gen_ai.* 屬性標準化 LLM 呼叫,並定義 invoke_agent、execute_tool 等 span 類型;2025/08 進一步提出「agentic 系統」慣例。目前仍屬實驗階段,需以 OTEL_SEMCONV_STABILITY_OPT_IN 啟用。來源:opentelemetry.io。

近期案例 · 2024–2026

業界正收斂到 OpenTelemetry GenAI 語意慣例

OpenTelemetry 的 GenAI 可觀測性 SIG 自 2024/04 啟動,以 gen_ai.* 屬性標準化 LLM 呼叫,並定義 invoke_agentexecute_tool 等 span 類型;2025/08 再提出涵蓋 task、action、agent、team、memory 的「agentic 系統」慣例目前仍為實驗階段(需 OTEL_SEMCONV_STABILITY_OPT_IN 啟用),但方向已成共識:讓追蹤有共同語彙

進入第二段:資料規模與隱私。這是「為什麼傳統可觀測性平台會撐不住 AI」的根本原因。

下兩頁用兩個有出處的數字說明落差。

02

資料規模與隱私

為什麼傳統可觀測性平台,會「撐不住」AI 的資料量

數字一:AI 追蹤的單一 span 平均約 50KB,傳統可觀測性的 span 約 900 bytes——相差約 55 倍(50,000 ÷ 900 ≈ 55)。

比例條讓落差「被看見」:傳統那條幾乎只是一條細縫。原因:AI 要把原始輸入/輸出都記下來。來源:Braintrust〈The Three Pillars of AI Observability〉。

資料規模 · span

AI 的單一 span,約是傳統的 55 倍

傳統 o11y
900 B
AI o11y
50 KB

同一個 span,AI 要把原始 prompt/回覆/工具參數都記下來,體積約差 55 倍來源:Braintrust

數字二:AI 系統的單一 trace 常見達 10GB 以上;而領先的傳統可觀測性平台,在 trace 超過約 100MB 時就會崩潰。

這說明「沿用舊平台」不是可行解——資料量級差了兩、三個數量級。來源:Braintrust 同上。

10GB+

AI 系統常見的單一 trace 規模;傳統平台在 trace 超過約 100MB 時就會崩潰

規模之外的另一面:AI 追蹤記錄的是原始 prompt 與輸出,又大又常含個資(PII)。

對資安院的語境:這讓「全都記下來」同時是觀測需求、也是治理風險。措辭上避免絕對化——目標是降低風險、強化可追溯,而非宣稱「完全防護」。

風險與對策

原始輸入輸出又大又敏感——四個風險,四個對策

風險
對策

含個資(PII)

原始 prompt/輸出常含客戶資料

內容擷取預設關閉

預設只留中繼資料,不留內容

體積龐大、留存成本高

單一 trace 可達 10GB 以上

取樣+保存期限

抽樣記錄並設定到期清除

敏感內容外洩或誤用

除錯時把原始內容攤開給人看

遮罩與存取控管

去識別化 redaction + 權限分層

難以稽核誰看了什麼

缺乏存取軌跡,事後無法追溯

存取紀錄與可追溯

留下查詢軌跡,支援事後稽核

穿插補充(③ 外部補充,呼應資安院關注):在 OTel GenAI 慣例下,預設只記錄中繼資料(模型名稱、token 數、延遲),不記錄 prompt 內容與工具參數。

若要開啟內容擷取,須先建立取樣、遮罩(redaction)、保存期限政策。對應可追溯、可驗證、人類監督。來源:opentelemetry.io。

近期實務 · 治理

內容擷取預設關閉,靠取樣、去識別化與保存政策把關

在 OTel GenAI 慣例下,預設只記錄中繼資料(模型名稱、token 數、延遲),不記錄 prompt 內容與工具參數開啟內容擷取前,須先建立取樣、遮罩、保存期限政策——因為原始內容可能含個資這正對應資安院強調的可追溯、可驗證與人類監督

這些挑戰累積起來,逼出新的資料架構。講者所屬的 Braintrust 自建了 Brainstore——同時為「規模」與「易於自架(self-host)」而設計。

提醒(② 主講人立場):此為 Braintrust 自家產品,非中立評比;引用時可標明。

新資料架構

規模問題,逼出新的資料架構

10GB+ trace
50KB span · 含 PII
Brainstore為 AI 規模重建的儲存層
為規模設計
易於自架 self-host

此為講者所屬 Braintrust 的自家產品,屬演講者立場、非中立比較

穿插補充(③ 外部補充):OTel GenAI 慣例正被廣泛採用——這降低了「被單一平台綁死」的風險。

三層架構:最底是共同資料平面(OTel gen_ai.*);中層觀測/評估平台直接吃這些 span;上層應用與工具(Agent 框架、coding agents)負責發出 span。換框架只需換 instrumentation。來源:opentelemetry.io、各廠商文件。

近期案例 · 生態系

一套共同資料平面,撐起整個生態系

應用與工具層 發出 spans

Agent 框架(LangChain · CrewAI · AutoGen)、Coding agents(VS Code Copilot · OpenAI Codex · Claude Code,trace 為 beta)

↓ 發出 OTel span

觀測 / 評估平台層 消費 spans

Datadog(v1.37+)· Honeycomb · New Relic 直接吃 GenAI span,無需改碼

↓ 共用語彙

共同資料平面

OpenTelemetry GenAI 語意慣例(gen_ai.*)——換框架只需換 instrumentation,觀測管線不變

第三段的另一半:讀 trace 的,不再只有工程師。非技術使用者也用 AI 追蹤來理解使用者行為與產品互動。

因此 UX 挑戰升級:把 JSON 丟給人看遠遠不夠——追蹤必須易讀、且能主動提供洞察。來源:Braintrust 三支柱文章。

新使用者

讀 trace 的,不再只有工程師

過去

只有工程師讀 trace

把原始 JSON 丟給人除錯,門檻高、被動,非技術角色看不懂

現在

非技術使用者也讀 trace

追蹤要易讀、能主動給出洞察,幫產品與營運理解使用者行為

收斂點:使用者不想在 metrics、logs、traces 三個割裂的介面間切換來拼湊全貌。

所以在 AI 裡,傳統可觀測性的「三大支柱」塌縮成同一件事——追蹤(tracing),成為理解行為的單一入口。來源:Braintrust 三支柱文章。

收斂

metrics、logs、traces,塌縮成一件事

Metrics
Logs
Traces
追蹤 Tracing理解使用者行為的單一入口

演講(與 Braintrust)主張的 AI 可觀測性三支柱,這裡畫成治理框架:頂帶治理目標、三柱能力、基座 AI 可觀測性。

追蹤 Traces——重建決策路徑。評估 Evals——量化表現(線上+離線)。標註 Annotation——把人的判斷灌回系統。頂帶的可信任/可追溯/可驗證/人類監督,是對應資安院治理語言的延伸詮釋。來源:Braintrust 三支柱文章。

框架

AI 可觀測性的三支柱

治理目標:可信任 · 可追溯 · 可驗證 · 人類監督
PILLAR 01

追蹤 Traces

重建一次請求的完整決策路徑:模型呼叫、工具、檢索、控制流

PILLAR 02

評估 Evals

量化表現——線上(production)與離線(dev/CI)——了解應用做得好不好

PILLAR 03

標註 Annotation

為應用與評估器建立修正訊號,把人的判斷與使用者期待灌回系統

AI 可觀測性

穿插補充(③ 外部補充):離線評估像「單元測試」,在開發期擋回歸;線上評估即時為 production 流量打分,偵測品質漂移。常見作法是 LLM-as-judge,並用取樣控制成本。

2026 進展:Galileo 的 Luna-2 宣稱可在 sub-200ms 延遲、較標準 LLM-as-judge 低 97% 成本下做全量評估;Langfuse 於 2026/01 被 ClickHouse 收購。這些為廠商宣稱,需獨立驗證。來源:各廠商 2026 文件/比較文。

近期案例 · 評估

線上評估與 LLM-as-judge,正變得可負擔

離線評估像單元測試,在開發期擋回歸;線上評估即時為 production 流量打分以偵測品質漂移,常以 LLM-as-judge 搭配取樣控制成本2026 進展:Galileo Luna-2 宣稱可在 sub-200ms 延遲、較標準 LLM-as-judge 低 97% 成本下做全量評估;Langfuse 於 2026/01 被 ClickHouse 收購(廠商宣稱,建議獨立驗證)

一句話帶走:別再問「系統還活著嗎」,要問「剛才發生了什麼、好不好」。

具體拆解:Agent 可觀測性 = 追蹤決策路徑(Traces)+ 評估輸出品質(Evals)+ 用標註把人的判斷灌回(Annotation)。

一句話帶走

別再問「系統還活著嗎」——
問「剛才發生了什麼,好不好」

Agent 可觀測性 = 追蹤決策路徑 + 評估輸出品質 + 用標註把人的判斷灌回系統

收尾頁:五個帶走的重點 + 資料來源,方便會後查證。

提醒聽眾:演講論點以 Braintrust 立場為主;近期案例的廠商數字(如 Luna-2、收購案)建議獨立查證。

重點回顧 · 資料來源

五個帶走的重點

資料來源: YouTube〈How agent o11y differs from traditional o11y — Phil Hetzel, Braintrust〉; Braintrust〈The Three Pillars of AI Observability〉; OpenTelemetry GenAI 語意慣例與 AI Agent Observability 部落格(opentelemetry.io,2024–2026); 各觀測/評估平台 2026 比較文(Datadog、Langfuse、Arize Phoenix、LangSmith、Galileo 等,部分為廠商立場,建議獨立驗證)

資安院 NICS National Institute of Cyber Security
內部公開
1 / 24
← / → · 捲動 · 滑動 · N 顯示講者備註