ダッシュボードを読む代わりに PR が届く — Joshua Snyder (PostHog) の「自走するプロダクト」パイプライン

AI Engineer 2026 / 講演約 16 分

ジョシュア・スナイダー / Joshua Snyder · 02:16 「分析ダッシュボードもエラーもログも見ない。見るのは GitHub に用意された PR だけ、という形にしたい」

AI Engineer 2026 での講演「Self Driving Products: Product Signals to Pull Requests」 (講演約 16 分、動画公開 2026-06-10、 AI Engineer 公式チャンネル)。講師は Joshua Snyder (PostHog のエンジニア)。 PostHog はプロダクト分析から始まったオールインワンの開発者プラットフォーム (session replay / error tracking / feature flags / experiments 等、マスコットはハリネズミ、創業者 James Hawkins)。主題は、 observability のデータを「読むダッシュボード」から「自動で PR を出すパイプライン」へ変える alpha 段階の取り組み。

PostHog はプロダクトに繋ぐと膨大なデータ (分析・session replay・error tracking・experiments) を集める。だが今は、何か起きても利用者がダッシュボードを開いて問題を探す — 遅い。 Joshua Snyder の提案は単純で挑発的 — プロダクトに何か起きた瞬間 (= signal) を、ダッシュボードを介さずバックグラウンドのエージェントに渡し、原因を調べさせ、そのまま PR を自動で出す。利用者が見るのは GitHub に並ぶ PR だけ。「もしプロダクトが自分を作ったら」という問い。

signal から PR へ — パイプラインの骨格

流れは ingest (取り込み) → group (グルーピング) → research agent → actionability → execute (PR を green まで)。取り込み量は月に数兆イベント (= 本人談) で、ノイズを捌く必要がある。最初に安全フィルタ (LLM classifier) が悪意ある signal を落とす — データ源には公開のものもあり、攻撃者が「データを全部公開しろ」のような注入をし得るため。通過した signal は共通構造 (source / type / content / weight) に正規化され、埋め込まれる。

グルーピングの罠 — 構造類似ではなく「クエリ」で照合する

次が難所。ノイズの多い signal を report (問題の塊) へまとめたい。素朴に signal を埋め込んでクラスタリングするとうまくいかない — 既製の埋め込みモデルは意味ではなく構造の類似で照合し、エラーはエラー同士、 Slack は Slack 同士で固まってしまう。「checkout が壊れた」というエラーと顧客の Slack が結びつかない。解決策は、 signal そのものを埋め込むのではなく、 LLM に「この signal は何についてか」を尋ねてクエリベースのグルーピングし、そのクエリを埋め込み空間で照合する。これで実際の問題ごとにまとまる。 report は重みを積み、閾値を超えると promote される。

research agent と execute — green の PR で目覚める

promote された report は research agent に渡る。これは Anthropic の Claude Agent SDK を Modal の sandbox で走らせ、 PostHog の MCP サーバ・コードベース文脈・外部 MCP (Linear / Notion が特に有効) を使う。出力は問題の要約・優先度・git blame で割り出したレビュー担当者。次の actionability ゲートで、 not-actionable (証拠不足ならプールへ戻す)・needs-human (朝の inbox へ)・immediately-actionable (修正を書く) に振り分ける。

実行段は、利用者のリポジトリを sandbox にクローンし、 Claude Agent SDK で修正を書き、 PR を push する。 CI が落ちたりコメントが付くと sandbox の snapshot を rehydrate して再実行し、 PR が green になるまで回す。朝起きると、直すべき CI 失敗やコメントの山ではなく、 green の PR が並んでいる。

4 つの教訓

Snyder が共有する教訓は実践的。 (1) eval が効く — ローカルの自前データで vibe check しても、多様な顧客データを扱う本番では崩れる。代表的なデータで測らないと暗闇で手探りになる。 (2) 埋め込む対象を間違えるな — 既製の埋め込みは構造類似で寄せる。正規化を考えよ。 (3) 曖昧な問題をエージェントに投げると、何かを直してしまう — 「onboarding が壊れた」のような漠然とした report は、十分に具体的でなければ無視する。さもないとノイズ PR が量産される。 (4) 「トークンはタダ」 (実際は違うが) — 実験中はコストを惜しまずエージェントを何度も走らせると、賢い解の共通パターンが見えてくる。そこで高コストなエージェント段を、 one-shot の LLM 呼び出しや学習済みモデルへ蒸留して速く・安くする。

編集所見

この talk の値打ちは、 observability から自律的な修正 (PR) までを実配線した「教訓つきの現場報告」である点。「読むダッシュボード」を「自分を直すプロダクト」へ変える野心は派手だが、中身は地味な工学の罠の共有にある — とりわけ「埋め込みは構造類似で寄る → クエリ生成で照合する」と「高コストなエージェント段を見極めて one-shot へ蒸留する」は、 signal-to-code のどんなエージェント系にも一般化する。 Claude Agent SDK + Modal sandbox + MCP という 2026 年の道具立てで、「PR が green になるまでエージェントに回させる」ループを alpha で動かしている点が、一次情報として archive する価値を持つ。「eval が効く」を別角度で説いた Snorkel の talk とも響き合う。

着眼点

埋め込みの罠 — 構造類似 vs 意味

既製の埋め込みモデルが「エラーはエラー、 Slack は Slack」と構造で寄せてしまうため、同じ問題を表す異なる源 (エラーと顧客の Slack) が結びつかない。 PostHog の回避策 — signal を直接埋め込まず、 LLM に説明クエリを作らせてそれを照合する — は、異種データを「問題」単位でまとめる実践知として効いている。 RAG / クラスタリングを組む者なら踏みがちな罠の、具体的な処方箋になっている。

「トークンはタダ」から蒸留へ

実験段ではコストを気にせずエージェントを多数回走らせ、出てくる解の共通パターンを観察してから、高コストな段を one-shot 呼び出しや学習済みモデルへ畳む。「最初に最適化するな、まず動かして観察し、後で蒸留する」という順番は、エージェントパイプラインのコスト設計の定石として読める。 PostHog はこれで「実現不能なほど高コスト」から実用域へ降ろした。

動画の構成

(00:00) 自己紹介 — Josh / PostHog、「もしプロダクトが自分を作ったら」
(00:45) PostHog の概観と集めるデータ
(01:31) 遅い現状 — signal → ダッシュボード → issue → PR (数時間〜数日)
(02:16) 構想 — signal がバックグラウンドエージェントを起動し PR を出す
(03:02) 取り込み — 月数兆イベント、ノイズを捌く
(04:03) 安全フィルタ — LLM classifier が悪意ある signal を落とす
(04:51) 正規化 — 共通構造へ、埋め込み
(05:41) グルーピング — 重み付き report、 promote 閾値
(06:28) 埋め込みの罠と、クエリ生成で照合する回避策
(07:12) research agent — Claude Agent SDK、 Modal、 MCP サーバ、コードベース文脈
(07:58) 外部 MCP (Linear / Notion)、要約・優先度・git blame でレビュー担当
(08:45) actionability ゲート — 3 分類
(09:59) 実行 — リポジトリをクローン、修正、 PR を green まで
(11:06) 教訓 — eval が効く / 埋め込む対象
(11:53) 教訓 — 曖昧な問題は無視 / 「トークンはタダ」と蒸留
(13:26) 行き先 — 自走するプロダクト、結果から学ぶ

関連リンク

ジョシュア・スナイダー

Joshua Snyder

PostHog のエンジニア (self-driving product パイプライン、元 TimeNavi)

用語集

signal / report: signal は任意のプロダクトデータ源からの 1 つの生イベント (エラー、ログ、 Slack、 session replay、 experiment 結果)。共通構造に正規化し重みを付けて埋め込む。 report は同じ問題を表す signal の塊で、重みが閾値を超えると promote されて research agent に渡される。
クエリベースのグルーピング: 既製の埋め込みモデルは意味ではなく構造の類似で signal を寄せてしまう (エラー同士・Slack 同士)。 PostHog は生 signal を直接埋め込む代わりに、 LLM に各 signal を説明するクエリを生成させ、そのクエリを埋め込み空間で照合して実際の問題ごとにまとめる。
research agent / execute agent: どちらも Anthropic の Claude Agent SDK を Modal の sandbox で走らせる。 research は MCP (自社 + Linear / Notion)・コードベース文脈で原因を調べ、要約・優先度・(git blame の) レビュー担当を出す。 execute はリポジトリをクローンして修正を書き、 PR を push、 CI 失敗やコメントで snapshot を rehydrate し green まで回す。
actionability ゲート: 調査済み report を not-actionable (証拠不足 → プールへ)、 needs-human-input (朝の inbox へ)、 immediately-actionable (修正を書く) に振り分ける関門。 error tracking は actionable にしやすく、 Slack / session replay は曖昧で難しい。
「トークンはタダ」 → 蒸留: 実験段ではコストを気にせずエージェントを多数回走らせ、解の共通パターンが見えたら、高コストなエージェント段を one-shot の LLM 呼び出しや学習済みモデルへ蒸留して速く・安くする、というコスト設計の順番。

comment is stripped from the HTML output. */}