TOPIC · 技術領域
Evals / 観測性
このトピックの情報を持つ記事 13
← トピック一覧-
AI で AI を debug する — Lawrence Jones (Incident.io) が公開する AI SRE 製品の内部ツール
「File systems are exceptionally good agent context。 MCP を被せるよりも、 Computer Use エージェントを使うよりも、 全部 download して filesystem として渡すほうが圧倒的に効果的やった」
-
コードカバレッジを越える — Marlene Mhangami (Microsoft) が見せる behavior-first TDD with Playwright MCP
「Clean code bases amplify AI gains、 unchecked AI in code base amplifies entropy。 14 倍の commit 急増の中で、 これが勝敗を分ける」
-
「Domain-Native AI Organization」 の作り方 — Chris Lovejoy (Notius Labs) が提示する 3 つの組織モデル
「Vertical AI で勝つのは fundamentally an organizational problem。 最良のモデルを取りに行くんやない、 domain expertise を組織にどう埋め込むかや」
-
Skills と MCP は対立しない、 補完する — Pedro Rodrigues (Supabase) が公開した skill 設計 3 原則
「ボトルネックはもうコンテキストやない、 ガイダンス (guidance) や。 ツールはもう揃ってる、 必要なのは agent に正しい操作方法を伝える skill の方や」
-
Ship Real Agents — Laurie Voss (Arize) が語る Eval の本物の作り方 (AI Engineer Europe)
「あなたが書きすぎる eval は壊れる。 Agent が予想より賢く tool を 2 つ飛ばしたとき、 prescriptive な eval は false negative を出す」
-
Malleable Evals — 静的ベンチマークから適応評価へ (Vincent Koc / Comet)
「我々の AI アプリケーションは静的ではない、 にもかかわらず、 我々は静的ソフトウェアのように扱っている」
-
強化学習が本番運用を industrialize する — Alessandro Cappelli (Adaptive ML)
「95% の GenAI パイロットは本番に到達できない。 これは『ラストマイルの神話』 が原因」
-
一発で決めようとするな — Granola Product Engineer の LLM 本番フィードバックループ
「答えは 『より良く one-shot すること』 ではない — LLM とテニスのラリーをするようなフィードバックループや」
-
エージェントはプロンプトではなくコンテキストで失敗する — Arize Alex の文脈管理
「Context decides what the model sees、 Memory decides what survives」
-
Playground in Prod — エージェントを本番で最適化する
「私は AI の可観測性をあまり信じていない、 いずれ食われる」
-
エージェント・オブザーバビリティの全貌
「人間がエージェントを監視できなくなったとき、 彼らは私たちより遥か先にいる」
-
Mind the Gap — Microsoft Foundry の Agent Observability ワークショップ (Amy Boyd & Nitya Narasimhan)
「あなたが今日 production で動かしている agent、 失敗した時にどうなっているか本当に分かりますか?」
-
478 ページのマニュアルを誰も読まない時代の DX 設計 — Marc Klingen (Langfuse) が公開した skill 構築の 6 学び
「3 年プロジェクトを続けたら、 こうなる — 478 ページのドキュメント。 デプロイのたびに 『誰がこれ全部書いたんだ』 と思う。 でも、 読む時間は誰にもない」