アスビョルン・スタインスコグ / Asbjørn Steinskog (Take Take Take) · 06:46 「LLM の仕事は翻訳だけや。 計算は Stockfish、 人間視点は Maia、 検出は detector 群。 LLM は与えられた情報を英語に直すだけ」
登壇は Anant Dole と Asbjørn Ottesen Steinskog、 共に Take Take Take のエンジニア。 Take Take Take は 史上最強チェスプレイヤー Magnus Carlsen が創業したチェス学習アプリのスタートアップ (iOS / Android、 ロンドン拠点)、 2025 年 11 月に Lichess.org とパートナーシップを発表したばかり。 Steinskog は Lichess ボランティアを 10 年やってからこの会社に合流した。
語る対象は Take Take Take の本番投入されている AI Chess Coach パイプラインの詳細。 一見「LLM にチェスを解説させる」 だけのプロダクトに見えるが、 中身は Stockfish + Maia (UToronto) + 数十の detector + LLM の精密な分業設計になっている。 LLM の役割は「最終出力の英語化」 だけ、 という極めて謙虚な使い方を採用したことで、 即時応答 (3 秒以内) と高精度を両立させた。
着眼点
LLM はチェスが下手 — Magnus Carlsen がオスロで実況した LLM トーナメント (05:02)
論拠の起点が秀逸:「LLM は本当にチェスが打てない」 を Magnus Carlsen 本人がオスロの Take Take Take オフィスで実況した Kaggle Game Arena の LLM チェストーナメント動画で示す。 Grok が早々に Qb6 (Poison Pawn line) を打って崩壊する場面 — オープニングは何となく打てるが、 すぐ幻覚を始める。 言語モデルだから、 計算と戦略的計画ができない、 当たり前。
ただし transformer アーキテクチャ自体がチェスに向かない訳ではない。 DeepMind は transformer を「次トークン予測」 ではなく「Stockfish 評価値の予測」 で訓練、 grandmaster レベルの強さを達成した。 でもこれは「打てるが説明できない」 モデル。 だから Take Take Take が組んだのは別経路 — 「最強の打ち手 (Stockfish)、 人間視点での評価 (Maia)、 戦術 / 戦略 detector」 を全て先に計算しておいて、 それらの事実を LLM に渡して英語化させるだけ、 という分業。
Maia ニューラルネット — 「最良手」 ではなく「あなたのレーティングなら見つけられるか」 (07:48)
Take Take Take パイプラインの隠れた秀逸さは Maia chess engine (University of Toronto の研究プロジェクト) の活用にある。 Maia は「最良手」 を予測する Stockfish とは違い、「特定レーティングの人間がこのポジションで打つ確率分布」 を予測するように訓練されている。 ELO 1500 のプレイヤーなら、 各手をどの確率で打つか。
これが何の役に立つか — 「この手は最強やが、 同時に超絶見つけにくい (確率 1% 以下)」 という、 コーチングに必須の難易度情報を出せる。 Stockfish が「+ブリリアントや」 と言うだけでは「やられた、 自分が下手や」 で終わる。 Maia が併走すると「この手は Stockfish 推奨で、 でも 1500 帯では 95% の人が見逃す」 まで言える。 単純な良 / 悪判定から「学習のための情報」 への質的変化。
Claude Code 自身に commentary を直してもらう autonomous loop (10:07)
面白いのが後半のデモパート。 ユーザがアプリ内で commentary に「悪い」 評価を付けると、 Slack に投稿 → Claude Code Channel (新機能、 Research Preview の MCP サーバが Claude Code セッションにイベント投入できる仕組み) に自動転送 → Claude Code が commentary triage skill を実行 → ポジション調査 → スクリプトで prompt / detector を修正 → 再生成 → 自己検証 → Slack に「これでええか」 と聞いてくる → 人間が OK したら PR を切る、 という autonomous loop。
実演はバスから携帯 1 台で完結。 ユーザの不満が autonomous エージェントを起動して、 携帯から PR レビュー → mobile GitHub でマージ、 まで人間の最低限の介入で完結する。 これが Take Take Take 全体の AI 開発フィロソフィー — 「autonomous な改善ループを最初から組み込む」。
Latency vs Quality — 3 秒で 75% 精度の Gemini Flash を選んだ理由 (12:42)
消費者向け AI プロダクトのリアル: ユーザはチェスを終えて即時に分析を見たい。「コーチが考えてます…」 を 30 秒見せたら離脱する。 だから目標は「sub 3 seconds」。 16 シナリオの eval を組んで Gemini 3 Flash / Claude (more thinking) / GPT-5 mini を比較した結果:
- Gemini 3 Flash: 精度 75%、 latency ~3 秒 → 採用
- Claude (more thinking): 精度 60% 未満、 latency 大幅長い → 即時用途には不適
- GPT-5 mini: latency 中、 精度低
OpenRouter で新モデルが出るたびスワップ可能にしてある。 評価は Take Take Take 自身がチェスプレイヤーなので最終チェックは人間 (Anant、 Asbjørn)、 「自分ならこう計算する vs LLM の応答」 を比較する。 SME (Subject Matter Expert) が builder と別人になる場合、 必ずパートナリングする (= 評価者は必ずしも開発者ではない) という運用ルールを学びとして提示。
動画の構成
- (00:16) 自己紹介、 Magnus Carlsen 創業の Take Take Take
- (00:49) アジェンダ — Take Take Take / チェス × AI 史 / なぜ LLM が下手 / パイプライン / latency vs quality
- (01:27) Take Take Take は何か — iOS / Android、 ゲームレビュー + AI 解説
- (02:00) ブリリアント手の自動検出と nuance のある解説
- (02:38) ユーザ行動分析 (game phase 別精度、 opening depth)
- (03:00) チェス × AI 史 — 1949 Shannon → 1997 Deep Blue → 2017 AlphaZero → 2022+ LLMs
- (04:42) LLM はチェスが下手、 すぐ幻覚を見る
- (05:02) Magnus Carlsen がオスロで実況した LLM トーナメント (Grok が Qb6 で崩壊)
- (06:16) Transformer 自体は使える — DeepMind の grandmaster transformer
- (06:46) ギャップ埋め — Stockfish が打つ、 LLM が説明する
- (07:48) Maia ニューラルネット — 人間視点の確率分布
- (09:54) パイプライン完成形 — 検出器 + Stockfish + Maia + LLM 翻訳
- (10:07) Autonomous improvement loop — Slack + Claude Code Channel
- (11:41) Live デモ — バスから commentary 修正 → mobile GitHub マージ
- (12:42) Latency vs Quality — sub 3 秒の制約
- (14:09) Eval 結果 — Gemini Flash 75% vs Claude 60% 未満
- (15:47) 学び 4 点 — データパイプラインと LLM 分業、 autonomous loop、 context engine、 SME パートナリング
- (16:38) チェス simul 告知 (3:45pm)
- (17:34) ライブデモ結果確認 — Claude も「何も間違ってない」 と判定
出典
Building a Chess Coach — Anant Dole and Asbjørn Steinskog, Take Take Take (AI Engineer Europe 2026)