本片導讀的定位：忠實還原 Phil Hetzel（Braintrust）這場演講的核心論點，近期標準與工具僅作點綴穿插。

「o11y」是 observability（可觀測性）的縮寫——o + 中間 11 個字母 + y，唸作「Ollie」。

資料來源：YouTube 原片〈How agent o11y differs from traditional o11y〉；論點骨架對照 Braintrust 官方文章〈The Three Pillars of AI Observability〉。逐字稿因平台限制無法取得，內容皆有公開出處、未臆測。

影片導讀 · AI 可觀測性 · 2026

Agent 的可觀測性，和傳統不一樣

解析 Phil Hetzel（Braintrust）演講〈How agent o11y differs from traditional o11y〉的核心論點，並穿插 2025–2026 的近期標準與工具

講者 Phil Hetzel 任職於 Braintrust——一個專注 AI 評估（evals）與可觀測性的平台。

演講的起手式：傳統可觀測性的核心問題是「系統還活著嗎？（is the system up?）」。講者主張，對 AI agent 而言，這不是對的問題。

這一頁先把「問錯問題」的張力立起來，後面逐一展開為什麼。

講題背景

一場關於「我們到底在觀測什麼」的重新定義

講者 Phil Hetzel 任職於 Braintrust（AI 評估與可觀測性平台）他的起點很直接：傳統可觀測性只回答一個問題——系統還活著嗎？對 AI agent 來說，這不是對的問題

來源：YouTube〈How agent o11y differs from traditional o11y — Phil Hetzel, Braintrust〉

說明本簡報如何分辨來源，避免把不同權威等級的內容混為一談——這是做影片研究簡報的慣例。

四層：①影片直接內容（最核心）②主講人／頻道背景 ③外部補充（2024–2026 近期案例，正面頁以菱形點標「近期案例」對應 ③ 的 lime 色）④AI 分析／推論（最低權威、需查證）。色塊對應後續頁面標示。

如何閱讀本簡報

四層來源，分開標示

① 影片直接內容

講者在這場演講實際提出的論點與數據

② 主講人／頻道背景

Phil Hetzel · Braintrust 的角色、專業與立場

③ 外部補充資料

2024–2026 近期標準與工具，正面頁標「近期案例」

④ AI 分析／推論

我方整理與判斷，最低權威、建議獨立查證

主講人與來源的可信度評估表（做影片研究簡報必含）。重點：Phil Hetzel 是第一線從業者、論點可信，但 Braintrust 是廠商方，Brainstore 與平台評比帶自家立場，須中立看待。

核心數據（span 50KB、trace 10GB+）對照 Braintrust 官方文章可查；廠商宣稱（Luna-2 等）標為需獨立驗證。整體內容可信度：中高。

來源評估

主講人與來源：可信度評估

面向	評估	說明
主講人	第一線從業者	Phil Hetzel，Braintrust 工程團隊，直接打造 AI 可觀測性產品
立場／利益	廠商方	Braintrust 為 AI 評估／可觀測性平台；Brainstore、平台評比帶自家立場
內容依據	有出處	對照官方文章〈The Three Pillars of AI Observability〉，數據可查
時效	2024–2026	與 OpenTelemetry GenAI 語意慣例同步，屬近期內容
可驗證性	中–高	核心數據可查；廠商宣稱（如 Galileo Luna-2）需獨立驗證
偏誤風險	中	產品導向，可能淡化競品、強調自家架構優勢

結論頁：是否值得認真吸收。判斷＝值得，但分兩種讀法：論點框架可直接吸收；具體數字與廠商宣稱另行查證再引用。

三個理由：①框架清晰（三支柱、追蹤目的轉變）②數據有出處 ③對應治理需求（可追溯／可驗證／人類監督）。提醒：廠商立場部分中立看待。

判斷

是否值得認真吸收

值得

以「論點框架」吸收：問題重構、三支柱、追蹤目的轉變都站得住腳；具體數字與廠商宣稱則另行查證後再引用

理由 01

框架清晰

把「為何 agent 不同」拆成可講、可記的結構

理由 02

數據有出處

核心數字對照官方文章可查證，非空泛宣稱

理由 03

對應治理

可追溯／可驗證／人類監督，貼合資安院關注

廠商立場部分（Brainstore、平台評比、Luna-2 數字）建議中立看待並獨立查證

四段式結構：先講「為什麼 agent 不一樣」，再談「資料規模與隱私」帶來的平台挑戰，接著是「新架構與新使用者」，最後收束到 Braintrust 主張的「三支柱」。

近期案例（OTel 語意慣例、生態系採用、線上評估）會穿插在對應段落，不另闢章節。

議程

四個段落

01

為什麼 agent 不一樣

確定性 → 機率性，以及追蹤目的的轉變

02

資料規模與隱私

又大又含個資的原始輸入輸出

03

新架構與新使用者

新的資料儲存，以及非技術讀者

04

三支柱

追蹤 · 評估 · 標註

本頁為核心論點的重述（非逐字引用）。傳統可觀測性源自控制理論：用外部訊號推知系統內部狀態，重點在「系統是否正常運作」。

AI agent 是機率性的：同一輸入，依 prompt、模型、檢索與資料不同而產生不同輸出。所以該問的不是「活著嗎」，而是「剛才到底發生了什麼、結果好不好」。

傳統可觀測性問的是：系統還活著嗎？對 agent 來說，該問的是——剛才到底發生了什麼，而且結果好不好？

— 演講核心論點（重述，非逐字）

對照重點：傳統 o11y 面對確定性系統，instrument 程式路徑、抓 metrics/logs/traces，目標是找效能瓶頸。

Agent o11y 面對機率性、與資料耦合的系統：同一輸入可能不同輸出，重點從「找瓶頸」轉為「重建決策路徑、理解為何如此」。

來源：Braintrust〈The Three Pillars of AI Observability〉對傳統與 AI 可觀測性的對比。

對照

從「系統是否正常」到「決策是否合理」

傳統 o11y

確定性系統，找效能瓶頸

instrument 程式路徑，蒐集 metrics、logs、traces；同一輸入給同一輸出，三大訊號各自分開查看

Agent o11y

機率性、與資料耦合，重建決策路徑

同一輸入會因 prompt、模型、檢索而不同；追蹤要回答「呼叫了哪些工具、為什麼，怪異輸出時手上有什麼脈絡」

三個本質差異，是後面所有挑戰的根源。

機率性：輸出隨 prompt／模型／檢索／資料而變動。資料耦合：行為和脈絡資料綁在一起，光看程式碼路徑不夠。工具與控制流：一次請求跨越多次模型呼叫、工具呼叫與分支，trace 變成一棵樹。

為什麼

Agent 系統的三個本質差異

01

機率性

同一輸入，依 prompt、模型、檢索與訓練資料而產生不同輸出

02

與資料耦合

行為和脈絡、檢索內容緊密相連，不只是程式碼路徑的問題

03

工具與控制流

一次請求橫跨多次模型呼叫、工具呼叫與控制流分支

關鍵轉變：在 AI 系統裡，追蹤（tracing）的主要目的，從「找效能瓶頸」變成「理解實際發生了什麼」。

下方 trace 樹為示意：一次請求被拆成 invoke_agent 根 span，底下掛多個 chat（模型呼叫）與 execute_tool（工具呼叫）。這正是「重建決策路徑」要看的東西。時間為示意非實測。

追蹤 Tracing

追蹤的目的，從「找瓶頸」變成「搞懂發生什麼」

不再只是定位效能瓶頸，而是回答：呼叫了哪些工具、為什麼？模型怪異輸出時手上有什麼脈絡？一次請求會展開成一棵 span 樹

TRACE · 一次客服 Agent 請求（示意）span tree

invoke_agent客服 Agent~1,240 ms

chat模型呼叫 · 判斷意圖~320 ms
execute_toolsearch_kb()~180 ms
chat模型呼叫 · 生成回覆~410 ms
execute_toolcreate_ticket()~90 ms

穿插補充（③ 外部補充）：業界正收斂到 OpenTelemetry 的 GenAI 語意慣例，把追蹤標準化。

OpenTelemetry GenAI Observability SIG 自 2024/04 啟動；以 gen_ai.* 屬性標準化 LLM 呼叫，並定義 invoke_agent、execute_tool 等 span 類型；2025/08 進一步提出「agentic 系統」慣例。目前仍屬實驗階段，需以 OTEL_SEMCONV_STABILITY_OPT_IN 啟用。來源：opentelemetry.io。

近期案例 · 2024–2026

業界正收斂到 OpenTelemetry GenAI 語意慣例

OpenTelemetry 的 GenAI 可觀測性 SIG 自 2024/04 啟動，以 gen_ai.* 屬性標準化 LLM 呼叫，並定義 invoke_agent、execute_tool 等 span 類型；2025/08 再提出涵蓋 task、action、agent、team、memory 的「agentic 系統」慣例目前仍為實驗階段（需 OTEL_SEMCONV_STABILITY_OPT_IN 啟用），但方向已成共識：讓追蹤有共同語彙

進入第二段：資料規模與隱私。這是「為什麼傳統可觀測性平台會撐不住 AI」的根本原因。

下兩頁用兩個有出處的數字說明落差。

02

資料規模與隱私

為什麼傳統可觀測性平台，會「撐不住」AI 的資料量

數字一：AI 追蹤的單一 span 平均約 50KB，傳統可觀測性的 span 約 900 bytes——相差約 55 倍（50,000 ÷ 900 ≈ 55）。

比例條讓落差「被看見」：傳統那條幾乎只是一條細縫。原因：AI 要把原始輸入／輸出都記下來。來源：Braintrust〈The Three Pillars of AI Observability〉。

資料規模 · span

AI 的單一 span，約是傳統的 55 倍

傳統 o11y

900 B

AI o11y

50 KB

同一個 span，AI 要把原始 prompt／回覆／工具參數都記下來，體積約差 55 倍來源：Braintrust

數字二：AI 系統的單一 trace 常見達 10GB 以上；而領先的傳統可觀測性平台，在 trace 超過約 100MB 時就會崩潰。

這說明「沿用舊平台」不是可行解——資料量級差了兩、三個數量級。來源：Braintrust 同上。

10GB+

AI 系統常見的單一 trace 規模；傳統平台在 trace 超過約 100MB 時就會崩潰

規模之外的另一面：AI 追蹤記錄的是原始 prompt 與輸出，又大又常含個資（PII）。

對資安院的語境：這讓「全都記下來」同時是觀測需求、也是治理風險。措辭上避免絕對化——目標是降低風險、強化可追溯，而非宣稱「完全防護」。

風險與對策

原始輸入輸出又大又敏感——四個風險，四個對策

風險

對策

含個資（PII）

原始 prompt／輸出常含客戶資料

內容擷取預設關閉

預設只留中繼資料，不留內容

體積龐大、留存成本高

單一 trace 可達 10GB 以上

取樣＋保存期限

抽樣記錄並設定到期清除

敏感內容外洩或誤用

除錯時把原始內容攤開給人看

遮罩與存取控管

去識別化 redaction ＋權限分層

難以稽核誰看了什麼

缺乏存取軌跡，事後無法追溯

存取紀錄與可追溯

留下查詢軌跡，支援事後稽核

穿插補充（③ 外部補充，呼應資安院關注）：在 OTel GenAI 慣例下，預設只記錄中繼資料（模型名稱、token 數、延遲），不記錄 prompt 內容與工具參數。

若要開啟內容擷取，須先建立取樣、遮罩（redaction）、保存期限政策。對應可追溯、可驗證、人類監督。來源：opentelemetry.io。

近期實務 · 治理

內容擷取預設關閉，靠取樣、去識別化與保存政策把關

在 OTel GenAI 慣例下，預設只記錄中繼資料（模型名稱、token 數、延遲），不記錄 prompt 內容與工具參數開啟內容擷取前，須先建立取樣、遮罩、保存期限政策——因為原始內容可能含個資這正對應資安院強調的可追溯、可驗證與人類監督

這些挑戰累積起來，逼出新的資料架構。講者所屬的 Braintrust 自建了 Brainstore——同時為「規模」與「易於自架（self-host）」而設計。

提醒（② 主講人立場）：此為 Braintrust 自家產品，非中立評比；引用時可標明。

新資料架構

規模問題，逼出新的資料架構

10GB+ trace

50KB span · 含 PII

Brainstore為 AI 規模重建的儲存層

為規模設計

易於自架 self-host

此為講者所屬 Braintrust 的自家產品，屬演講者立場、非中立比較

穿插補充（③ 外部補充）：OTel GenAI 慣例正被廣泛採用——這降低了「被單一平台綁死」的風險。

三層架構：最底是共同資料平面（OTel gen_ai.*）；中層觀測／評估平台直接吃這些 span；上層應用與工具（Agent 框架、coding agents）負責發出 span。換框架只需換 instrumentation。來源：opentelemetry.io、各廠商文件。

近期案例 · 生態系

一套共同資料平面，撐起整個生態系

應用與工具層　發出 spans

Agent 框架（LangChain · CrewAI · AutoGen）、Coding agents（VS Code Copilot · OpenAI Codex · Claude Code，trace 為 beta）

↓ 發出 OTel span

觀測 / 評估平台層　消費 spans

Datadog（v1.37+）· Honeycomb · New Relic 直接吃 GenAI span，無需改碼

↓ 共用語彙

共同資料平面

OpenTelemetry GenAI 語意慣例（gen_ai.*）——換框架只需換 instrumentation，觀測管線不變

第三段的另一半：讀 trace 的，不再只有工程師。非技術使用者也用 AI 追蹤來理解使用者行為與產品互動。

因此 UX 挑戰升級：把 JSON 丟給人看遠遠不夠——追蹤必須易讀、且能主動提供洞察。來源：Braintrust 三支柱文章。

新使用者

讀 trace 的，不再只有工程師

過去

只有工程師讀 trace

把原始 JSON 丟給人除錯，門檻高、被動，非技術角色看不懂

現在

非技術使用者也讀 trace

追蹤要易讀、能主動給出洞察，幫產品與營運理解使用者行為

收斂點：使用者不想在 metrics、logs、traces 三個割裂的介面間切換來拼湊全貌。

所以在 AI 裡，傳統可觀測性的「三大支柱」塌縮成同一件事——追蹤（tracing），成為理解行為的單一入口。來源：Braintrust 三支柱文章。

收斂

metrics、logs、traces，塌縮成一件事

Metrics

Logs

Traces

追蹤 Tracing理解使用者行為的單一入口

演講（與 Braintrust）主張的 AI 可觀測性三支柱，這裡畫成治理框架：頂帶治理目標、三柱能力、基座 AI 可觀測性。

追蹤 Traces——重建決策路徑。評估 Evals——量化表現（線上＋離線）。標註 Annotation——把人的判斷灌回系統。頂帶的可信任／可追溯／可驗證／人類監督，是對應資安院治理語言的延伸詮釋。來源：Braintrust 三支柱文章。

框架

AI 可觀測性的三支柱

治理目標：可信任 · 可追溯 · 可驗證 · 人類監督

PILLAR 01

追蹤 Traces

重建一次請求的完整決策路徑：模型呼叫、工具、檢索、控制流

PILLAR 02

評估 Evals

量化表現——線上（production）與離線（dev／CI）——了解應用做得好不好

PILLAR 03

標註 Annotation

為應用與評估器建立修正訊號，把人的判斷與使用者期待灌回系統

AI 可觀測性

穿插補充（③ 外部補充）：離線評估像「單元測試」，在開發期擋回歸；線上評估即時為 production 流量打分，偵測品質漂移。常見作法是 LLM-as-judge，並用取樣控制成本。

2026 進展：Galileo 的 Luna-2 宣稱可在 sub-200ms 延遲、較標準 LLM-as-judge 低 97% 成本下做全量評估；Langfuse 於 2026/01 被 ClickHouse 收購。這些為廠商宣稱，需獨立驗證。來源：各廠商 2026 文件／比較文。

近期案例 · 評估

線上評估與 LLM-as-judge，正變得可負擔

離線評估像單元測試，在開發期擋回歸；線上評估即時為 production 流量打分以偵測品質漂移，常以 LLM-as-judge 搭配取樣控制成本2026 進展：Galileo Luna-2 宣稱可在 sub-200ms 延遲、較標準 LLM-as-judge 低 97% 成本下做全量評估；Langfuse 於 2026/01 被 ClickHouse 收購（廠商宣稱，建議獨立驗證）

一句話帶走：別再問「系統還活著嗎」，要問「剛才發生了什麼、好不好」。

具體拆解：Agent 可觀測性 = 追蹤決策路徑（Traces）+ 評估輸出品質（Evals）+ 用標註把人的判斷灌回（Annotation）。

一句話帶走

別再問「系統還活著嗎」——
問「剛才發生了什麼，好不好」

Agent 可觀測性 = 追蹤決策路徑 + 評估輸出品質 + 用標註把人的判斷灌回系統

收尾頁：五個帶走的重點 + 資料來源，方便會後查證。

提醒聽眾：演講論點以 Braintrust 立場為主；近期案例的廠商數字（如 Luna-2、收購案）建議獨立查證。

重點回顧 · 資料來源

五個帶走的重點

01問對問題：從「系統是否正常」轉為「決策是否合理、輸出是否夠好」
02規模與隱私改變遊戲規則：span 約 55 倍大、trace 達 10GB+、且含 PII
03三大支柱塌縮成「追蹤」，成為理解行為的單一入口
04OpenTelemetry GenAI 慣例成為共同資料平面，降低被綁死的風險
05評估（線上＋離線）是品質防線；治理上採預設不留內容、可追溯

資料來源： YouTube〈How agent o11y differs from traditional o11y — Phil Hetzel, Braintrust〉； Braintrust〈The Three Pillars of AI Observability〉； OpenTelemetry GenAI 語意慣例與 AI Agent Observability 部落格（opentelemetry.io，2024–2026）；各觀測／評估平台 2026 比較文（Datadog、Langfuse、Arize Phoenix、LangSmith、Galileo 等，部分為廠商立場，建議獨立驗證）

Agent 的可觀測性，和傳統不一樣

一場關於「我們到底在觀測什麼」的重新定義

四層來源，分開標示

① 影片直接內容

② 主講人／頻道背景

③ 外部補充資料

④ AI 分析／推論

主講人與來源：可信度評估

是否值得認真吸收

框架清晰

數據有出處

對應治理

四個段落

為什麼 agent 不一樣

資料規模與隱私

新架構與新使用者

三支柱

從「系統是否正常」到「決策是否合理」

確定性系統，找效能瓶頸

機率性、與資料耦合，重建決策路徑

Agent 系統的三個本質差異

機率性

與資料耦合

工具與控制流

追蹤的目的，從「找瓶頸」變成「搞懂發生什麼」

業界正收斂到 OpenTelemetry GenAI 語意慣例

資料規模與隱私

AI 的單一 span，約是傳統的 55 倍

原始輸入輸出又大又敏感——四個風險，四個對策

含個資（PII）

內容擷取預設關閉

體積龐大、留存成本高

取樣＋保存期限

敏感內容外洩或誤用

遮罩與存取控管

難以稽核誰看了什麼

存取紀錄與可追溯

內容擷取預設關閉，靠取樣、去識別化與保存政策把關

規模問題，逼出新的資料架構

一套共同資料平面，撐起整個生態系

讀 trace 的，不再只有工程師

只有工程師讀 trace

非技術使用者也讀 trace

metrics、logs、traces，塌縮成一件事

AI 可觀測性的三支柱

追蹤 Traces

評估 Evals

標註 Annotation

線上評估與 LLM-as-judge，正變得可負擔

別再問「系統還活著嗎」——問「剛才發生了什麼，好不好」

五個帶走的重點

別再問「系統還活著嗎」——
問「剛才發生了什麼，好不好」