TOPIC · 技術領域

Evals / 観測性

AI システムの品質を測る方法 — 本番で使えるレベルの評価設計 — が分かる

AI で AI を debug する — Lawrence Jones (Incident.io) が公開する AI SRE 製品の内部ツール

「File systems are exceptionally good agent context。 MCP を被せるよりも、 Computer Use エージェントを使うよりも、全部 download して filesystem として渡すほうが圧倒的に効果的やった」

ローレンス・ジョーンズ / Lawrence Jones (Incident.io) · 2026/05/17

エージェント本番運用 Claude Code
コードカバレッジを越える — Marlene Mhangami (Microsoft) が見せる behavior-first TDD with Playwright MCP

「Clean code bases amplify AI gains、 unchecked AI in code base amplifies entropy。 14 倍の commit 急増の中で、これが勝敗を分ける」

マルレーヌ・ムハンガミ / Marlene Mhangami (Microsoft) · 2026/05/16

Claude Code MCP 本番運用
「Domain-Native AI Organization」の作り方 — Chris Lovejoy (Notius Labs) が提示する 3 つの組織モデル

「Vertical AI で勝つのは fundamentally an organizational problem。最良のモデルを取りに行くんやない、 domain expertise を組織にどう埋め込むかや」

クリストファー・ラブジョイ / Chris Lovejoy (Notius Labs) · 2026/05/16

エンタープライズ本番運用エージェント
Skills と MCP は対立しない、補完する — Pedro Rodrigues (Supabase) が公開した skill 設計 3 原則

「ボトルネックはもうコンテキストやない、ガイダンス (guidance) や。ツールはもう揃ってる、必要なのは agent に正しい操作方法を伝える skill の方や」

ペドロ・ロドリゲス / Pedro Rodrigues (Supabase) · 2026/05/15

MCP Claude Code 本番運用
Ship Real Agents — Laurie Voss (Arize) が語る Eval の本物の作り方 (AI Engineer Europe)

「あなたが書きすぎる eval は壊れる。 Agent が予想より賢く tool を 2 つ飛ばしたとき、 prescriptive な eval は false negative を出す」

ロリー・ヴォス / Laurie Voss · 2026/05/14

エージェント本番運用
Malleable Evals — 静的ベンチマークから適応評価へ (Vincent Koc / Comet)

「我々の AI アプリケーションは静的ではない、にもかかわらず、我々は静的ソフトウェアのように扱っている」

ヴィンセント・コック · 2026/05/12
強化学習が本番運用を industrialize する — Alessandro Cappelli (Adaptive ML)

「95% の GenAI パイロットは本番に到達できない。これは『ラストマイルの神話』が原因」

アレッサンドロ・カペリ · 2026/05/12

本番運用
一発で決めようとするな — Granola Product Engineer の LLM 本番フィードバックループ

「答えは『より良く one-shot すること』ではない — LLM とテニスのラリーをするようなフィードバックループや」

メヘディ・ハッサン · 2026/05/10

本番運用
エージェントはプロンプトではなくコンテキストで失敗する — Arize Alex の文脈管理

「Context decides what the model sees、 Memory decides what survives」

サリーアン・デルシア · 2026/05/10

RAG / 文脈エージェント
Playground in Prod — エージェントを本番で最適化する

「私は AI の可観測性をあまり信じていない、いずれ食われる」

サミュエル・コルヴィン · 2026/05/07

エージェント本番運用
エージェント・オブザーバビリティの全貌

「人間がエージェントを監視できなくなったとき、彼らは私たちより遥か先にいる」

ズービン・コティチャ × ダニー・ゴラパリ · 2026/05/07

エージェント本番運用
Mind the Gap — Microsoft Foundry の Agent Observability ワークショップ (Amy Boyd & Nitya Narasimhan)

「あなたが今日 production で動かしている agent、失敗した時にどうなっているか本当に分かりますか?」

エイミー・ボイド × ニティア・ナラシマン · 2026/05/14

エージェント本番運用
478 ページのマニュアルを誰も読まない時代の DX 設計 — Marc Klingen (Langfuse) が公開した skill 構築の 6 学び

「3 年プロジェクトを続けたら、こうなる — 478 ページのドキュメント。デプロイのたびに『誰がこれ全部書いたんだ』と思う。でも、読む時間は誰にもない」

マルク・クリンゲン / Marc Klingen (Langfuse 共同創業者) · 2026/05

エージェント Claude Code

他のトピックも見る

Software 3.0 AGI タイムライン AI 経済アライメントパーソナリティ AI 安全解釈可能性 Claude Code MCP エージェントマルチモーダル RAG / 文脈 Anthropic 地政学エンタープライズインフラ本番運用終焉アーカイブ

Evals / 観測性

AI で AI を debug する — Lawrence Jones (Incident.io) が公開する AI SRE 製品の内部ツール

コードカバレッジを越える — Marlene Mhangami (Microsoft) が見せる behavior-first TDD with Playwright MCP

「Domain-Native AI Organization」 の作り方 — Chris Lovejoy (Notius Labs) が提示する 3 つの組織モデル

Skills と MCP は対立しない、 補完する — Pedro Rodrigues (Supabase) が公開した skill 設計 3 原則

Ship Real Agents — Laurie Voss (Arize) が語る Eval の本物の作り方 (AI Engineer Europe)

Malleable Evals — 静的ベンチマークから適応評価へ (Vincent Koc / Comet)

強化学習が本番運用を industrialize する — Alessandro Cappelli (Adaptive ML)

一発で決めようとするな — Granola Product Engineer の LLM 本番フィードバックループ

エージェントはプロンプトではなくコンテキストで失敗する — Arize Alex の文脈管理

Playground in Prod — エージェントを本番で最適化する

エージェント・オブザーバビリティの全貌

Mind the Gap — Microsoft Foundry の Agent Observability ワークショップ (Amy Boyd & Nitya Narasimhan)

478 ページのマニュアルを誰も読まない時代の DX 設計 — Marc Klingen (Langfuse) が公開した skill 構築の 6 学び

他のトピックも見る

「Domain-Native AI Organization」の作り方 — Chris Lovejoy (Notius Labs) が提示する 3 つの組織モデル

Skills と MCP は対立しない、補完する — Pedro Rodrigues (Supabase) が公開した skill 設計 3 原則