マルレーヌ・ムハンガミ / Marlene Mhangami · 03:10 「Clean code bases amplify AI gains、 unchecked AI in code base amplifies entropy。 14 倍の commit 急増の中で、 これが勝敗を分ける」
Marlene Mhangami の AI Engineer Europe 2026 講演は、 2026 年に GitHub が観測している commit 量 14 倍急増 (年間 140 億 commit 予測) の中で 「ただ書く量が増えるだけ」 を防ぐための test 設計を扱う。 起点は Stanford の 120,000 人開発者調査 ── AI productivity gain は code base の清潔さに比例し、 unchecked な AI 投入は entropy を加速させる、 という不都合な真実。 「PR 数だけ増えて refactor で時間を食う、 結果 1% しか改善しない」 という failure mode を proactively avoid する手法が、 本講演の中核。
MEMEX 編集視点で重要なのは、 これが Laurie Voss (Arize) の Ship Real Agents での 「eval は AI engineer にとってのテスト」 という思想を、 非 AI 製品 (= 普通の web アプリ) 側でどう実装するか という補完軸で示している点。 Voss は AI 製品の eval、 Marlene は AI 生成コードの eval ── 両方とも 「AI が走った後の品質をどう担保するか」 の話。
「TDD は 2014 年に死んだ、 でも AI 時代に蘇る」
Marlene の歴史的整理: 2014 年、 Rails 創始者 DHH が 「TDD is dead」 をブログで宣言。 過度な unit test 中心主義の弊害が業界全体で意識された。 主な批判:
- Implementation detail を test する ── メソッド名 rename で test が壊れる、 機能は同じやのに
- Self-affirming test ── AI に test 生成させると、 通すための test を書きがち、 behavior 検証になっていない
- Code coverage 信仰 ── 100% coverage でも production で壊れる
解は Ian Cooper が提唱した 「behavior-driven TDD」 ── stable contract (API、 export された module) や final behavior (price 計算結果) を test し、 internal refactor で壊れない test を書く。 これは Pedro Rodrigues (Supabase) の skill 設計 3 原則 での 「opinionated workflow を skill に encode」 と同じ思想 ── behavior という最も stable な layer に anchor を打つ。
Red-green-refactor の時間配分が逆転する
AI 時代の TDD の新しい姿:
- Red (失敗 test 作成) ── 従来は人間が時間かけて書いた、 AI 時代は数秒
- Green (test を通すコード生成) ── 従来は数時間、 AI 時代は数分
- Refactor (品質向上) ── ここに人間の時間が集中する
これが Marlene の core thesis。 「AI が書いた code を人間が review し、 architecture や読みやすさを整える」 工程が、 開発者の最大の付加価値になる。 これは Karpathy の Software 3.0 / Agentic Engineering での 「abstraction layer が一つ上がる」 主張と完全に整合する。
Playwright + MCP ── Behavior を測る武器
Microsoft の Playwright は元々 end-to-end testing framework (Python / TypeScript / C# 等対応)。 2025-2026 で 3 つの統合手段が成熟:
- Playwright MCP server ── agent が直接 browser を駆動できる
- Playwright CLI ── 既存 setup と統合
- Playwright Agents ── `agent.md` ファイルで planner / generator / healer の 3 agents を install
Demo: Tailspin Toys (架空のおもちゃ EC サイト) に 「search bar + sidebar filter」 機能追加。 Marlene は GitHub Copilot CLI から:
- WorkIQ skill で Outlook の機能要求メールを CLI に取り込む
- 「red-green TDD で進めて、 まず failing Playwright test を書け」 と指示
- Agent が codebase を analyze、 Playwright test を生成 (search field の placeholder 検索、 入力、 filter ボタンクリック等)
- Test を実行 (browser headed mode で screenshot 録画)、 fail を確認
- 機能 code を生成して test を pass させる
- Pass 後、 Marlene が refactor 段階に時間を投入
ここで重要なのが 「test は behavior を見る」 ── 「Furby を search すると Furby 結果が表示される」 「特定 price 帯 filter で対応 toy のみ残る」 という ユーザー視点。 implementation detail ではない。 これによって AI が refactor で internal を書き直しても、 test は壊れず、 behavior 担保が続く。
Best practices ── 4 つの現場知見
Marlene が最後に提示する実用 tips:
- Playwright screenshots を PR に添付 ── reviewer が機能の実際の見た目を確認できる、 ブラックボックス AI コードの説明可能性向上
- Headless mode で CI 統合 ── ブラウザ表示なしで test 実行、 GitHub Actions / Azure Pipelines で常時走らせる
- Commit before agent edits ── AI が大量変更する前に git commit、 失敗時の roll back を保証
- One feature, one test ── 1 feature 1 test に絞ると agent が confused にならない
State management が複雑な admin panel 系の質問に対して Marlene は 「Playwright Agents の `agent.md` を使え、 state 系の specialized instructions が built-in」 と回答。 必要なら API 直接 test も組み合わせる。 つまり Playwright は browser-based、 backend API は別 layer で test する hybrid 戦略を推奨。
編集所見 ── 「14 倍の commit 量」 にどう対応するか
この講演を MEMEX で取り上げる視点は 3 つ。
(1) GitHub Octoverse データの strategic 意味。 2025 年 1B commit → 2026 年 14B 予想 = 14 倍。 これは software 業界全体の 「production rate」 が 1 年で桁違いに変化したことを示す唯一の hard data。 同じ期間で Intercom が 9 ヶ月で 2x throughput 達成、 PFF が 2 ヶ月で 25x deploy / 10x output 達成。 個別企業の数字が業界全体の commit 量と一致する。 これは構造的変化の証拠。
(2) 「品質 vs 速度」 の二項対立が消える。 Marlene の Stanford 研究引用 ── 「clean code base + AI = 大幅な productivity gain、 unchecked AI = entropy」 ── は、 2026 年の開発組織の最も重要な分岐点。 PR 数だけ追う organization は AI の恩恵を 1% しか取れない、 test infrastructure に投資した organization は 10-25x の差を取る。
(3) Microsoft / GitHub プラットフォーム戦略の core piece。 Playwright + Copilot CLI + WorkIQ (M365 統合) の組み合わせは、 GitHub が 「単なる code host」 から 「AI-native 開発プラットフォーム」 への変貌を完成させつつあることを示す。 Anthropic $350B 評価額の構造 での Microsoft × Anthropic 統合 (Azure に Claude が乗る) と並行して、 GitHub 側でも AI 統合が進んでる。
動画の構成
- (00:00) 自己紹介、 Microsoft & GitHub Core AI 部門
- (01:00) GitHub Octoverse 2025 ── 年 1B commit、 2026 予測 14B
- (02:10) Stanford 120k 開発者調査の核心結論
- (03:30) TDD の歴史 ── 2014 「dead」、 Simon Willison が red-green 復活
- (04:30) 過剰な code coverage の罠 (implementation detail、 self-affirming)
- (06:00) Behavior-first TDD の解 ── stable contract に anchor
- (07:00) Playwright の紹介、 多言語対応
- (08:00) Red-green-refactor の時間配分逆転
- (09:00) Playwright MCP / CLI / Agents の 3 連携
- (10:30) Tailspin Toys demo 開始 ── WorkIQ で要求取り込み
- (13:00) Failing test 生成、 実行、 機能実装、 pass まで
- (16:00) Best practices 4 つ
- (17:30) Q&A ── state 管理 + Playwright Agents、 モバイル / desktop 対応