AI Harness の Deep Dive — Tejas Kumar (IBM) が体系化する「2026 年は harness の年」 (AI Engineer Europe 2026)

AI Engineer Europe 2026 (London) — Tejas Kumar / IBM 2026/05/17

テジャス・クマール / Tejas Kumar · 04:50 「Agent harness とは、モデルを取り囲んで現実に grounding させる全てのもの。 black box のモデルを安定環境に anchoring する仕組み、それが harness」

AI Engineer Europe 2026 (London、 2026/05/17 公開、約 20 分 26 秒)。講師はテジャス・クマール (Tejas Kumar、 IBM の AI Developer Advocate、 Watson モデルの DevRel 担当)。「AI Harness とは何か」を第一原理から体系化し、 GPT 3.5 Turbo (2023 年の旧モデル) を使って Hacker News の upvote を完遂する「baby's first harness」を live 構築する 18 分の deep dive。業界で混乱しがちな概念 (ML harness vs Agent harness) を切り分け、「2025 = 年は agent の年、 2026 = harness の年、 2027 = dynamic on-the-fly harness の年」という業界進化予測を提示する。

本記事で持ち帰ってほしい 1 点は、 2026 年以降の AI 開発における改善余地は「prompt の磨き込み」ではなく「harness の設計」に大きく残っている、という Tejas の構造論。同じ prompt + 古いモデル (GPT 3.5 Turbo) でも harness 次第で 0 step (失敗) から 6 step (成功) まで反転する live demo が、この構造を示す。

Tejas Kumar の AI Engineer Europe 2026 講演は、急速に普及した「harness」という用語の定義を業界全体に向けて整理する入門講演 (primer)。同じ AI Engineer Europe 2026 で Anthropic の Ash Prabaker × Andrew Wilson が long-running agent の最先端 harness 設計を 1 時間 15 分で深掘りしたのと対の関係に位置し、「harness 入門 + frontier」のセットを業界に提供する 2 講演構造になっている。

MEMEX 編集視点で重要なのは、 Tejas が「2025 年 = agent の年、 2026 年 = harness の年、 2027 年 = dynamic harness の年」という 3 年スパンの業界進化予測を明示した点。これは MEMEX が観測している個別事例 ── Incident.io の AI SRE harness、 Intercom の Claude Code 全社展開、 Namespace の Continuous Compute ── を 1 つの業界進化軸に位置づける視座を与える。

なぜ harness が必要か ── reliability の名の下に

Tejas が冒頭で示す問題定義: AI 開発者の大半は frontier model を「rent」 (テナント) する立場にあり、 month-to-month で 20 ドル払って context window を借りる関係。借りているモデルは black box ── 同じ「Opus」と表示されていても、サーバー側で Sonnet にフォールバックされたらユーザーには分からない。こうした「制御不能な変数」が大量にある環境で、エージェントの動作を確実にするために harness が必要になる。

「Harness の目的は reliability」。 black box の non-determinism を取り囲んで、「自分が制御する安定環境に anchoring する」ことが harness の役割。

Harness の語源 ── 登山 / 犬の散歩との同型性

Tejas は概念を直感化するために 2 つの比喩を使う:

登山者の harness ── 安定した山に自分を anchoring することで、落下したとしても drift しすぎない。「安定した何かに自分を結びつける」という構造
犬の散歩用 harness (リード) ── 「dog doesn't go and bankrupt you with tokens」という冗談を含む比喩。行動の範囲を制限することで、想定外のコスト (= 想定外の挙動) を防ぐ

AI harness も全く同じ構造: モデルの動作を「制御可能な範囲」に閉じ込めることで、 reliability を担保する。

ML Harness vs Agent Harness ── 用語の混乱を切り分ける

Tejas は「harness」という同じ用語が 2 つの異なるものを指している現状を整理:

ML harness ── 機械学習世界での用法。モデルの test suite + test runner に近い。入力を与えて出力品質を評価する。これは ML エンジニアリングの世界の話
Agent harness ── AI エンジニアリング世界での用法。モデルを取り囲む全インフラ (tool、 context 管理、 guardrail、 verify step) を指す。こちらが本講演の対象

Agent Harness の 6 つの構成要素

Tejas が体系化する Agent Harness の standard な構成要素:

Tool Registry ── モデルが呼び出せる tool 群の登録簿。 Claude Code、 Cursor、 Codex のような production harness は file system 読み書き、 bash 実行などを tool として持つ
Model ── 中核の LLM。選択可能な場合と固定の場合がある
Context Primitives ── context window 管理。自動 compaction、 conversation history 圧縮など。「ほぼ全ての production harness が自分の context を自動 compact する」
Guardrails ── 最大 step 数、最大 token 数、 forbidden patterns などの制限
Agent Loop ── 「harness は agent loop と同じか」というよくある誤解への回答: 「No、 harness は agent loop の周りのもの。 loop の周りにさらに loop を持つこともある」
Verify Step ── 作業完了後の検証 (coding agent なら lint + test 実行など)

Live Demo ── Baby's First Harness

講演の核心は live demo。 Task: 「Hacker News に行って最初の post を upvote する」を、意図的に GPT 3.5 Turbo (2023 年モデル、性能が低い) で完遂させる。 prompt は一切いじらず、 harness のみを段階的に強化する 4 段階の進化を示す。

Phase 1: Harness なし ── 失敗 + 嘘をつく

最初の実装は browser session (Playwright で Chromium 起動)、 tool 群 (navigate / click)、シンプルな agent loop のみ。結果: Hacker News に到達 → upvote ボタン押下 → ログイン画面に遭遇してパニック → クラッシュ。しかし agent は「成功しました」と嘘の報告を返す。これが harness 不在の状態。

Phase 2: Guardrail 導入 ── 最大反復回数 + context 圧縮

Default guardrails を追加。 max iterations (6 step 超過で kill)、 max messages (一定数超過で context 圧縮)。 Context compressor は「system prompt と user prompt を常に保持、最後の 2 message のみ keep」という naive 実装。これだけでも「無限ループに陥る」タイプの失敗は防げる。

Phase 3: Harness として extract + verify step

Index.ts から logic を runHarness() 関数に抽出。さらに verifySuccessfulUpvote() という決定的検証関数を追加。この関数は agent の trace history を読み、 (a) browser click が upvote ボタン上だったか、 (b) ログインページに redirect されたか、 (c) ログインに失敗したか、を deterministic にチェック。結果: agent はまだ login で失敗するが、もう嘘をつかない。「成功しなかった」と正しく報告する。「test-driven development vibes ── 問題を solve する step 1 は、問題を持っていることを admit すること」という Tejas の表現。

Phase 4: 決定的 login handler 追加 ── 成功

Login handler pattern : agent loop の各 step 前に hook を実行。現在 URL が login page なら、環境変数から credentials を programmatic に入力して送信、元のページに復帰。 LLM に一切 credentials を見せない、決定的かつ secure な実装。結果: GPT 3.5 Turbo という 2023 年の旧モデルが、 Hacker News へのログイン + upvote を 6 step で完遂。

念のため明示すると、これは prompt engineering を否定する話ではない。 prompt は重要だ。ただし harness が欠落している状態では、どれだけ prompt を磨いても reliability の床は上がらない。重要な事実: prompt は最初から一切変更していない。「prompt を強化する」「system prompt を変更する」という直感的な解決策ではなく、 harness を組むだけで結果が 0 step (失敗) から 6 step (成功) まで反転する、というデモンストレーション。これは Pedro Rodrigues (Supabase) の skill 設計 3 原則での「ボトルネックは context ではなく guidance」と同じ insight を別角度で実証している。

業界進化予測 ── 2025 / 2026 / 2027

Tejas が講演末尾で提示する 3 年進化予測:

2025 = year of agents ── agent という概念が業界で普及した年
2026 = year of harnesses ── AI Engineer Europe 2026 で「harness」が 52,000 回使われた事実が示すように、 agent を本番で動かす harness が業界の中心トピックになる年
dynamic on-the-fly harness = 2027 年予測 ── agent が自分用の harness を動的に生成してから作業を始める段階

この 2027 年予測は AGI への「next logical step」として Tejas が個人的願望込みで提示。 dynamic harness が成立すれば、 agent は単に reliability の制約下で動くのではなく、自分の reliability を自分で設計する自己改善能力を獲得する。

編集所見 ── MEMEX の業界軸としての harness

この講演を MEMEX で取り上げる視点は 3 つ。

(1) 業界 vocabulary の定義者として Tejas が果たす役割。 frontier lab の Anthropic / Google DeepMind / OpenAI から発信される技術用語は、各 lab の側面しか映さない。 IBM の DevRel として Tejas が業界全体に向けて「harness とは何か」を定義することで、 ML engineering 出身者と AI engineering 新参者の認識ギャップが埋まる。これは Anthropic Project Glasswing や Anthropic Skills 公式提唱と並ぶ、用語整理者としての DevRel の業界貢献。 Tejas は IBM OpenRAG (17:30 で言及) という enterprise 向け OSS を実装例として提示し、 frontier lab とは異なる「業界全体向けの実装基盤」という IBM のポジショニングを明示する。

(2) 「prompt を強化する」から「harness を組む」への発想転換。 ChatGPT 普及以降、開発者の問題解決は「prompt engineering = system prompt を磨く」が中心だった。 Tejas の demo は同じ prompt のままで結果が 0 step (失敗) から 6 step (成功) まで反転することを示し、改善の主軸が prompt から harness へシフトしていることを実演する。これは Mehedi Hassan (Granola) の「Cannot one-shot it」や Pedro Rodrigues の skill 設計と同じ「単発生成では限界、構造で解く」業界 thesis の harness 版実装。

(3) MEMEX が 2026 年を「harness の年」として観測する根拠が揃った。 Tejas の予測 + Anthropic の long-running agent workshop + Incident.io の AI SRE 製品 + Namespace の Continuous Compute + PFF の post-engineer org ── これらが「harness が agent 時代の差別化要因」を示すデータ点として並ぶ。 MEMEX のネットワーク graph 上で「harness」が 2026 年の重要 cluster として浮上する根拠が、 Tejas のフレーミングで明確になった。ただし MEMEX は 2027 年予測 (dynamic harness) を現時点で確信を持って肯定する立場ではない。 metacognition を持つ agent が実装可能かは 2026 年時点の実証根拠が乏しく、 1 年後に再点検する保留付きで取り扱う。

動画の構成

(00:00) 自己紹介、 IBM AI Developer Advocate、 Watson モデル
(01:00) 「harness について自信を持って語れる人?」と会場挙手 (少数)
(01:45) なぜ harness が必要か ── 開発者は frontier model を「rent」する立場
(03:00) 「Harness の目的は reliability」
(03:30) 登山 + 犬の散歩の比喩
(04:00) ML harness vs Agent harness の用語整理
(04:50) 「Agent harness とは、モデルを取り囲んで現実に grounding させる全て」
(05:30) Agent Harness の 6 構成要素 (tool / model / context / guardrails / loop / verify)
(07:30) Live demo 開始 ── GPT 3.5 Turbo で Hacker News upvote
(08:30) Phase 1: harness なし、ログインで失敗 + 嘘の報告
(10:30) Phase 2: guardrails 導入 (max iterations、 context 圧縮)
(12:30) Phase 3: harness として抽出 + verify step で嘘を排除
(15:00) Phase 4: 決定的 login handler で成功 ── 6 step で upvote 完遂
(17:00) 「prompt は一切変更していない」強調
(17:30) IBM OpenRAG の例 ── enterprise harness の production 実装
(18:00) 業界進化予測 ── 2025 agent / 2026 harness / 2027 dynamic harness
(19:30) Dynamic harness が AGI への next logical step との見解
(20:00) 締め、 GitHub の slides 案内

重要な引用

(04:50) 「Agent harness とは、モデルを取り囲んで現実に grounding させる全てのもの。 black box のモデルを安定環境に anchoring する仕組み、それが harness」 ── Tejas の中核定義
(03:00) 「Harness の目的は reliability」 ── 目的を 1 語で凝縮
(12:30 前後) 「test-driven development vibes ── 問題を solve する step 1 は、問題を持っていることを admit すること」 ── Phase 3 で verify step が agent の嘘を解体した時の言葉
(17:00) 「prompt は最初から一切変更していない」 ── 4 段階の demo 全てで強調された事実
(18:00) 「2025 = year of agents、 2026 = year of harnesses、 2027 = year of dynamic on-the-fly harnesses」 ── 3 年スパンの業界進化予測
(19:30) 「dynamic harness は AGI への next logical step」 ── 「個人的願望込み」と前置きされた長期予測
(05:30) 「harness は agent loop と同じものではない、 harness は agent loop の周りのもの」 ── よくある誤解への明示的回答

批評的な視点 ── 2027 年予測への留保

Tejas の 2025 / 2026 予測は既に観測可能なデータで裏付けられる (= agent 用語の業界普及、 harness の中心トピック化)。ただし 2027 年予測 (dynamic on-the-fly harness) には MEMEX の側で留保がある。

dynamic harness の前提は、 agent が「自分が hallucinate しそうな箇所を識別する」 metacognition (= 自分の認知を認知する能力) を持つこと。これは 2026 年時点の LLM ベンチマーク (例: SimpleQA / TruthfulQA / HaluEval) では限定的な性能しか示されていない。 Tejas 自身も「個人的願望込み」と前置きしている (19:30)。 MEMEX は 2027 年予測の検証を 1 年後に再点検する立場をとる。

関連リソース

出典