AI Harness の Deep Dive — Tejas Kumar (IBM) が体系化する 「2026 年は harness の年」 (AI Engineer Europe 2026)

AI Engineer Europe 2026 (London) — Tejas Kumar / IBM 2026/05/17

テジャス・クマール / Tejas Kumar · 04:50 「Agent harness とは、 モデルを取り囲んで現実に grounding させる全てのもの。 black box のモデルを安定環境に anchoring する仕組み、 それが harness」

AI Engineer Europe 2026 (London、 2026/05/17 公開、 約 20 分 26 秒)。 講師は テジャス・クマール (Tejas Kumar、 IBM の AI Developer Advocate、 Watson モデルの DevRel 担当)。 「AI Harness とは何か」 を第一原理から体系化し、 GPT 3.5 Turbo (2023 年の旧モデル) を使って Hacker News の upvote を完遂する 「baby's first harness」 を live 構築する 18 分の deep dive。 業界で混乱しがちな概念 (ML harness vs Agent harness) を切り分け、 「2025 = 年は agent の年、 2026 = harness の年、 2027 = dynamic on-the-fly harness の年」 という業界進化予測を提示する。

本記事で持ち帰ってほしい 1 点は、 2026 年以降の AI 開発における改善余地は 「prompt の磨き込み」 ではなく 「harness の設計」 に大きく残っている、 という Tejas の構造論。 同じ prompt + 古いモデル (GPT 3.5 Turbo) でも harness 次第で 0 step (失敗) から 6 step (成功) まで反転する live demo が、 この構造を示す。

Tejas Kumar の AI Engineer Europe 2026 講演は、 急速に普及した 「harness」 という用語の定義を業界全体に向けて整理する入門講演 (primer)。 同じ AI Engineer Europe 2026 で Anthropic の Ash Prabaker × Andrew Wilson が long-running agent の最先端 harness 設計 を 1 時間 15 分で深掘りしたのと対の関係に位置し、 「harness 入門 + frontier」 のセットを業界に提供する 2 講演構造になっている。

MEMEX 編集視点で重要なのは、 Tejas が 「2025 年 = agent の年、 2026 年 = harness の年、 2027 年 = dynamic harness の年」 という 3 年スパンの業界進化予測を明示した点。 これは MEMEX が観測している 個別事例 ── Incident.io の AI SRE harnessIntercom の Claude Code 全社展開Namespace の Continuous Compute ── を 1 つの業界進化軸に位置づける視座を与える。

なぜ harness が必要か ── reliability の名の下に

Tejas が冒頭で示す問題定義: AI 開発者の大半は frontier model を 「rent」 (テナント) する立場にあり、 month-to-month で 20 ドル払って context window を借りる関係。 借りているモデルは black box ── 同じ 「Opus」 と表示されていても、 サーバー側で Sonnet にフォールバックされたらユーザーには分からない。 こうした 「制御不能な変数」 が大量にある環境で、 エージェントの動作を確実にするために harness が必要になる。

「Harness の目的は reliability」。 black box の non-determinism を取り囲んで、 「自分が制御する安定環境に anchoring する」 ことが harness の役割。

Harness の語源 ── 登山 / 犬の散歩との同型性

Tejas は概念を直感化するために 2 つの比喩を使う:

  • 登山者の harness ── 安定した山に自分を anchoring することで、 落下したとしても drift しすぎない。 「安定した何かに自分を結びつける」 という構造
  • 犬の散歩用 harness (リード) ── 「dog doesn't go and bankrupt you with tokens」 という冗談を含む比喩。 行動の範囲を制限することで、 想定外のコスト (= 想定外の挙動) を防ぐ

AI harness も全く同じ構造: モデルの動作を 「制御可能な範囲」 に閉じ込めることで、 reliability を担保する。

ML Harness vs Agent Harness ── 用語の混乱を切り分ける

Tejas は 「harness」 という同じ用語が 2 つの異なるものを指している現状を整理:

  • ML harness 機械学習世界での用法。 モデルの test suite + test runner に近い概念で、 入力データを与えて出力品質 (精度、 F1、 confusion matrix 等) を評価する仕組み。 ML エンジニアリング分野で 2010 年代から使われてきた既存用語で、 Tejas Kumar によれば AI エンジニアリング世界の 「Agent harness」 とは別物。 例: OpenAI Evals、 Anthropic の AISI 評価系、 HELM 等 ── 機械学習世界での用法。 モデルの test suite + test runner に近い。 入力を与えて出力品質を評価する。 これは ML エンジニアリングの世界の話
  • Agent harness Tejas Kumar が AI Engineer Europe 2026 (2026/05/17) で定義した概念。 「モデルを取り囲んで現実に grounding させる全て」 ── black box の non-determinism (= 同じ入力でも結果が毎回変わる性質) を取り囲んで、 制御可能な範囲に閉じ込めるインフラ全体を指す。 tool registry / context 管理 / guardrail / agent loop / verify step などを含む。 ML harness (= test runner) とは別概念 ── AI エンジニアリング世界での用法。 モデルを取り囲む全インフラ (tool、 context 管理、 guardrail、 verify step) を指す。 こちらが本講演の対象

Agent Harness の 6 つの構成要素

Tejas が体系化する Agent Harness の standard な構成要素:

  1. Tool Registry Agent harness の 6 構成要素の 1 つ (Tejas Kumar 体系)。 モデルが呼び出せる tool 群の登録簿。 file system 読み書き、 bash 実行、 web 検索、 外部 API 呼び出しなど、 各 tool の名前・引数仕様・実行コードを harness 側で管理する。 Production harness (Claude Code、 Cursor、 Codex) は数十〜数百の tool を持つことが一般的 ── モデルが呼び出せる tool 群の登録簿。 Claude Code、 Cursor、 Codex のような production harness は file system 読み書き、 bash 実行などを tool として持つ
  2. Model ── 中核の LLM。 選択可能な場合と固定の場合がある
  3. Context Primitives Agent harness の 6 構成要素の 1 つ (Tejas Kumar 体系)。 context window の管理機構。 自動 compaction (= 古い対話を要約して圧縮)、 conversation history の選択的保持、 token budget の動的調整など。 Tejas Kumar 曰く 「ほぼ全ての production harness が自分の context を自動 compact する」。 これがないと長時間タスクで context window が枯渇して agent が崩壊する ── context window 管理。 自動 compaction、 conversation history 圧縮など。 「ほぼ全ての production harness が自分の context を自動 compact する」
  4. Guardrails Agent harness の 6 構成要素の 1 つ (Tejas Kumar 体系)。 agent 動作の上限設定 ── 最大 step 数、 最大 token 数、 forbidden patterns (実行禁止コマンド・URL・キーワード)、 sandboxing 範囲など。 暴走を防ぐ防壁として機能。 Tejas の犬の散歩用 harness 比喩 (「dog doesn't go and bankrupt you with tokens」) は この要素を指す ── 最大 step 数、 最大 token 数、 forbidden patterns などの制限
  5. Agent Loop Agent harness の 6 構成要素の 1 つ (Tejas Kumar 体系)。 「LLM の出力を受け取り → tool 呼び出しを実行 → 結果を LLM に返す → 次の出力を受け取る」 を繰り返すループ構造。 Tejas Kumar の重要な指摘: 「harness は agent loop と同じものではない、 harness は agent loop の周りのもの」。 1 つの harness が複数の agent loop を coordinate するケースもある (nested loop) ── 「harness は agent loop と同じか」 という よくある誤解への回答: 「No、 harness は agent loop の周りのもの。 loop の周りに さらに loop を持つこともある」
  6. Verify Step Agent harness の 6 構成要素の 1 つ (Tejas Kumar 体系)。 agent が 「タスク完了」 と報告する直前 / 直後に挟む 決定的検証ステップ。 coding agent なら lint + test 実行、 web タスクなら 「ボタン押下が成功したか」 の状態確認、 等。 これがないと agent は嘘の成功報告を返すことがある (Tejas の live demo で確認された現象)。 verify step は LLM 出力ではなく決定的コード (関数 / script) で実装する ── 作業完了後の検証 (coding agent なら lint + test 実行など)

Live Demo ── Baby's First Harness

講演の核心は live demo。 Task: 「Hacker News に行って最初の post を upvote する」 を、 意図的に GPT 3.5 Turbo (2023 年モデル、 性能が低い) で完遂させる。 prompt は一切いじらず、 harness のみを段階的に強化する 4 段階の進化を示す。

Phase 1: Harness なし ── 失敗 + 嘘をつく

最初の実装は browser session (Playwright で Chromium 起動)、 tool 群 (navigate / click)、 シンプルな agent loop のみ。 結果: Hacker News に到達 → upvote ボタン押下 → ログイン画面に遭遇してパニック → クラッシュ。 しかし agent は 「成功しました」 と嘘の報告を返す。 これが harness 不在の状態。

Phase 2: Guardrail 導入 ── 最大反復回数 + context 圧縮

Default guardrails を追加。 max iterations (6 step 超過で kill)、 max messages (一定数超過で context 圧縮)。 Context compressor は 「system prompt と user prompt を常に保持、 最後の 2 message のみ keep」 という naive 実装。 これだけでも 「無限ループに陥る」 タイプの失敗は防げる。

Phase 3: Harness として extract + verify step

Index.ts から logic を runHarness() 関数に抽出。 さらに verifySuccessfulUpvote() という決定的検証関数を追加。 この関数は agent の trace history を読み、 (a) browser click が upvote ボタン上だったか、 (b) ログインページに redirect されたか、 (c) ログインに失敗したか、 を deterministic にチェック。 結果: agent はまだ login で失敗するが、 もう嘘をつかない。 「成功しなかった」 と正しく報告する。 「test-driven development vibes ── 問題を solve する step 1 は、 問題を持っていることを admit すること」 という Tejas の表現。

Phase 4: 決定的 login handler 追加 ── 成功

Login handler pattern Tejas Kumar が AI Engineer Europe 2026 で実演した harness pattern の 1 つ。 agent loop の各 step 直前に harness 側で実行される hook で、 「現在 URL が login page か」 を確認し、 (a) login page でなければ何もしない、 (b) login page なら secure な credentials を programmatic にフォーム入力 + 送信し、 元のページに復帰させる、 という決定的処理。 LLM に credentials を見せずに済むため、 security と reliability の両方を確保する典型的な harness 設計 : agent loop の各 step 前に hook を実行。 現在 URL が login page なら、 環境変数から credentials を programmatic に入力して送信、 元のページに復帰。 LLM に一切 credentials を見せない、 決定的かつ secure な実装。 結果: GPT 3.5 Turbo という 2023 年の旧モデルが、 Hacker News へのログイン + upvote を 6 step で完遂。

念のため明示すると、 これは prompt engineering を否定する話ではない。 prompt は重要だ。 ただし harness が欠落している状態では、 どれだけ prompt を磨いても reliability の床は上がらない。 重要な事実: prompt は最初から一切変更していない。 「prompt を強化する」 「system prompt を変更する」 という直感的な解決策ではなく、 harness を組むだけで結果が 0 step (失敗) から 6 step (成功) まで反転する、 というデモンストレーション。 これは Pedro Rodrigues (Supabase) の skill 設計 3 原則 での 「ボトルネックは context ではなく guidance」 と同じ insight を別角度で実証している。

業界進化予測 ── 2025 / 2026 / 2027

Tejas が講演末尾で提示する 3 年進化予測:

  • 2025 = year of agents ── agent という概念が業界で普及した年
  • 2026 = year of harnesses ── AI Engineer Europe 2026 で 「harness」 が 52,000 回使われた事実が示すように、 agent を本番で動かす harness が業界の中心トピックになる年
  • dynamic on-the-fly harness Tejas Kumar が AI Engineer Europe 2026 で提示した 2027 年の業界進化予測。 agent がタスクを与えられた時点で、 まず自分用の harness を 動的に生成してから作業を始める段階。 Tejas 曰く 「plan mode on steroids ── agent が self-aware で hallucinate しそうな箇所を識別し、 harness を作って guardrail を立てる」。 metacognition (= 自分の認知を認知する能力) を要求するため、 2026 年時点の LLM では実装根拠が乏しく、 Tejas 自身も 「個人的願望込み」 と前置きしている = 2027 年予測 ── agent が自分用の harness を動的に生成してから作業を始める段階

この 2027 年予測は AGI への 「next logical step」 として Tejas が個人的願望込みで提示。 dynamic harness が成立すれば、 agent は単に reliability の制約下で動くのではなく、 自分の reliability を自分で設計する自己改善能力を獲得する。

編集所見 ── MEMEX の業界軸としての harness

この講演を MEMEX で取り上げる視点は 3 つ。

(1) 業界 vocabulary の定義者として Tejas が果たす役割。 frontier lab の Anthropic / Google DeepMind / OpenAI から発信される技術用語は、 各 lab の側面しか映さない。 IBM の DevRel として Tejas が業界全体に向けて 「harness とは何か」 を定義することで、 ML engineering 出身者と AI engineering 新参者の認識ギャップが埋まる。 これは Anthropic Project GlasswingAnthropic Skills 公式提唱 と並ぶ、 用語整理者としての DevRel の業界貢献。 Tejas は IBM OpenRAG (17:30 で言及) という enterprise 向け OSS を実装例として提示し、 frontier lab とは異なる 「業界全体向けの実装基盤」 という IBM のポジショニングを明示する。

(2) 「prompt を強化する」 から 「harness を組む」 への発想転換。 ChatGPT 普及以降、 開発者の問題解決は 「prompt engineering = system prompt を磨く」 が中心だった。 Tejas の demo は同じ prompt のままで結果が 0 step (失敗) から 6 step (成功) まで反転することを示し、 改善の主軸が prompt から harness へシフトしていることを実演する。 これは Mehedi Hassan (Granola) の 「Cannot one-shot it」Pedro Rodrigues の skill 設計 と同じ 「単発生成では限界、 構造で解く」 業界 thesis の harness 版実装。

(3) MEMEX が 2026 年を 「harness の年」 として観測する根拠が揃った。 Tejas の予測 + Anthropic の long-running agent workshop + Incident.io の AI SRE 製品 + Namespace の Continuous Compute + PFF の post-engineer org ── これらが 「harness が agent 時代の差別化要因」 を示すデータ点として並ぶ。 MEMEX のネットワーク graph 上で 「harness」 が 2026 年の重要 cluster として浮上する根拠が、 Tejas のフレーミングで明確になった。 ただし MEMEX は 2027 年予測 (dynamic harness) を現時点で確信を持って肯定する立場ではない。 metacognition を持つ agent が実装可能かは 2026 年時点の実証根拠が乏しく、 1 年後に再点検する保留付きで取り扱う。

動画の構成

  • (00:00) 自己紹介、 IBM AI Developer Advocate、 Watson モデル
  • (01:00) 「harness について自信を持って語れる人?」 と会場挙手 (少数)
  • (01:45) なぜ harness が必要か ── 開発者は frontier model を 「rent」 する立場
  • (03:00) 「Harness の目的は reliability」
  • (03:30) 登山 + 犬の散歩の比喩
  • (04:00) ML harness vs Agent harness の用語整理
  • (04:50) 「Agent harness とは、 モデルを取り囲んで現実に grounding させる全て」
  • (05:30) Agent Harness の 6 構成要素 (tool / model / context / guardrails / loop / verify)
  • (07:30) Live demo 開始 ── GPT 3.5 Turbo で Hacker News upvote
  • (08:30) Phase 1: harness なし、 ログインで失敗 + 嘘の報告
  • (10:30) Phase 2: guardrails 導入 (max iterations、 context 圧縮)
  • (12:30) Phase 3: harness として抽出 + verify step で嘘を排除
  • (15:00) Phase 4: 決定的 login handler で成功 ── 6 step で upvote 完遂
  • (17:00) 「prompt は一切変更していない」 強調
  • (17:30) IBM OpenRAG の例 ── enterprise harness の production 実装
  • (18:00) 業界進化予測 ── 2025 agent / 2026 harness / 2027 dynamic harness
  • (19:30) Dynamic harness が AGI への next logical step との見解
  • (20:00) 締め、 GitHub の slides 案内

重要な引用

  • (04:50) 「Agent harness とは、 モデルを取り囲んで現実に grounding させる全てのもの。 black box のモデルを安定環境に anchoring する仕組み、 それが harness」 ── Tejas の中核定義
  • (03:00) 「Harness の目的は reliability」 ── 目的を 1 語で凝縮
  • (12:30 前後) 「test-driven development vibes ── 問題を solve する step 1 は、 問題を持っていることを admit すること」 ── Phase 3 で verify step が agent の嘘を解体した時の言葉
  • (17:00) 「prompt は最初から一切変更していない」 ── 4 段階の demo 全てで強調された事実
  • (18:00) 「2025 = year of agents、 2026 = year of harnesses、 2027 = year of dynamic on-the-fly harnesses」 ── 3 年スパンの業界進化予測
  • (19:30) 「dynamic harness は AGI への next logical step」 ── 「個人的願望込み」 と前置きされた長期予測
  • (05:30) 「harness は agent loop と同じものではない、 harness は agent loop の周りのもの」 ── よくある誤解への明示的回答

批評的な視点 ── 2027 年予測への留保

Tejas の 2025 / 2026 予測は既に観測可能なデータで裏付けられる (= agent 用語の業界普及、 harness の中心トピック化)。 ただし 2027 年予測 (dynamic on-the-fly harness) には MEMEX の側で 留保がある。

dynamic harness の前提は、 agent が 「自分が hallucinate しそうな箇所を識別する」 metacognition (= 自分の認知を認知する能力) を持つこと。 これは 2026 年時点の LLM ベンチマーク (例: SimpleQA / TruthfulQA / HaluEval) では限定的な性能しか示されていない。 Tejas 自身も 「個人的願望込み」 と前置きしている (19:30)。 MEMEX は 2027 年予測の検証を 1 年後に再点検する立場をとる。

関連リソース

出典