Project Glasswing 発表 — Anthropic が公開しない判断を下した Claude Mythos Preview

Anthropic 公式 / 2026/04/07

Dario Amodei (Anthropic CEO) · 01:09 「LLM が世界最高峰のソフトウェア開発者と同等のコードを書けるようになったということは、同じ能力で、ソフトウェアの脆弱性を見つけて悪用することもできるということ」

Anthropic 公式「An initiative to secure the world's software | Project Glasswing」 (2026/04 公開、約 5 分 48 秒)。ナレーションは Dario Amodei (CEO)、セキュリティ研究員として Newton Cheng (Frontier Red Team Cyber Lead) が登場、加えて Jim Zemlin (Linux Foundation CEO) のコメント

2026 年 4 月、 Anthropic は公開しないと決めた AI モデルの存在を世界に知らせた。名前は Claude Mythos Preview 。一般公開しない理由は、能力が高すぎるから。そして同時に発表されたのが、 40 社以上のパートナーと共に Mythos を防御目的に限定して使う産業横断イニシアチブ、 Project Glasswing 。

この記事は Anthropic 公式動画 (5:48) を題材に、 (1) 何が技術的に起きたか、 (2) なぜ「公開しない」判断に至ったか、 (3) Project Glasswing が何を企図しているか、を扱う。同時期に The AI Show Ep.209 (SmarterX) がこの発表を約 1 時間 46 分かけて解説しており、そちらの分析は別記事「Claude Mythos と Project Glasswing をどう読むか — The AI Show Ep.209」にまとめている。

着眼点

「コードに強いように訓練したら、サイバーにも強くなった」 (01:09 - 01:58)

Dario Amodei が冒頭で示す核心。「我々は最近 Claude Mythos Preview という新モデルを開発した。早い段階から、このモデルがサイバーセキュリティ能力で大幅に優れることは明らかだった。加速する指数関数があり、その上に意義のある節目がある。 Mythos Preview は特に大きなジャンプ」 (01:09 - 01:45)。

重要な認識: 「我々はこのモデルをサイバーで強くなるように訓練したわけじゃない。コードに強くなるように訓練した。でもコードが上手いことの副作用として、サイバーにも上手くなった」 (01:45 - 01:58)。これは、セキュリティ AI が独立した研究領域ではなく、汎用 LLM の能力上昇の必然的副産物として現れる、ということを意味する。

Karpathy の「ジャギーな知能」や Hinton の多次元能力論の文脈で読むと納得しやすい — 能力は均一に伸びるのではなく、ある領域で訓練すると別の領域で予測できない jump が起こる。サイバーは今回、その jagged な突き出しが社会的に最も危険な方向に発生した例。

「人生で見つけた全バグより多くを、直近の数週間で見つけた」 — 技術的成果 (03:36 - 04:26)

Anthropic Frontier Red Team の Cyber Lead、 Newton Cheng の証言: 「過去数週間で私が見つけたバグは、人生でこれまで見つけた全バグの合計より多い」 (03:36)。

具体的な成果:

OpenBSD で 27 年もののバグ: 「データを少し送るだけで、どの OpenBSD サーバーでもクラッシュさせられる」。 OpenBSD は「ハック不可能な OS」として設計されてきた、多くのインターネットルーター・ファイアウォールで使用される系統。そこに四半世紀埋もれていた脆弱性が、 Mythos によって発見された。
Linux で権限昇格バグ: 「権限のないユーザーが、単にバイナリを実行するだけで管理者権限を取得できる」。これも複数発見。
FFmpeg (動画ツール) で長期未発見の脆弱性: 自動テストツールが 500 万回スキャンしても引っかからなかったもの。
FreeBSD で 17 年もの RCE: 完全自律で発見してエクスプロイトまで実演 (初期指示後は人間の介入ゼロ)。
Firefox ベンチマーク: Claude Opus 4.6 が数百回試行して 2 個の動作するエクスプロイトを作ったところを、 Mythos は 181 個を生成 (約 90 倍)。
主要 OS と全主要 Web ブラウザで数千の zero-day 脆弱性を発見、メンテナに通報済み、既に修正パッチがデプロイ済み。

「脆弱性を連鎖させる」自律性 (01:58 - 02:45)

Mythos の質的に新しい能力。「脆弱性を連鎖させる能力 (chain together vulnerabilities) がある。 1 つの脆弱性だけでは大して使えない 2 つを発見し、さらに 3 つ、 4 つ、時には 5 つの脆弱性を順番に組み合わせて、非常に洗練された最終的アウトカムを作るエクスプロイトを生成できる」 (02:00 - 02:30)。

これがなぜ可能か: 「このモデルは非常に自律的 (very autonomous)。人間のセキュリティ研究者が 1 日かけてやる種類の、長期 (long-range) タスクを追求するのが一般的に上手い」 (02:30 - 02:45)。つまり連続的な仮説生成 → 検証 → 失敗 → 修正のループを、人間のレベルで持続できる。

「これは公開しない」 — RSP の初の本格運用 (02:45 - 03:30)

Dario の宣言。「明らかに、こうした能力を持つモデルは、間違った手に渡れば害を生む可能性がある。だから我々はこのモデルを広く公開しない。より強力なモデルが我々からも、他社からも出てくる。だから我々にはこれに対応する計画が必要」 (02:45 - 03:08)。

Newton Cheng はこれを「産業の転換点 (industry change point) または覚悟 (reckoning) の出発点」と呼んだ。これまで Anthropic が公開してきた Responsible Scaling Policy (RSP) / AI Safety Level (ASL) の枠組み (ASL-1 から ASL-4 へ) で、「展開が容認できないレベルに達したら停止する」という条項が、初めて本格的に発動された。

代わりの戦略が Project Glasswing: 「世界で最も重要なコードを動かしている組織と提携して、防御に使ってもらう」 (03:00 - 03:30)。これによって「世界で最も重要なソフトウェアを動かしている人たちに、他の誰よりも先に、こうした高度なツールを与える — それが我々全員の集合的な head start (出だしの優位) になる」 (03:00)。

連合の出現 — クラウド・デバイス・セキュリティ・金融・OSS が同じテーブルに (04:26 - 05:18)

Glasswing のパートナー連合は、普段は競合する企業群:

クラウド: AWS、 Google Cloud、 Microsoft Azure
デバイス: Apple、 NVIDIA、 Broadcom
セキュリティ: CrowdStrike、 Palo Alto Networks、 Cisco
金融: JPMorgan Chase
オープンソース: Linux Foundation

Dario: 「米国政府の高官とも会話してきた。我々はこうしたモデルのリスクを評価し、防御することで協力することを提案している」 (04:26)。

「サイバーセキュリティは社会のセキュリティ (the security of our society)。業界全体で集まり、連携して、より良い防御能力を作ることが必要不可欠」 (04:50 - 05:18)。これは Anthropic 単独の研究プロジェクトではなく、産業横断の防御連合の宣言。普段の競合関係を超えた緊急事態認識として読める。

動画の構成

(00:00) ソフトウェアのバグ・脆弱性は珍しくない、でも一部は社会全体に波及する
(01:09) Claude Mythos Preview の発表、「コードに強くなった結果、サイバーにも強くなった」
(01:58) 「プロの人間と同等にバグを発見」「脆弱性を連鎖させる自律性」
(02:45) 「広く公開しない」 — RSP の本格運用
(03:00) Project Glasswing の発表、集合的 head start
(03:36) 「人生で見つけた全バグより多くを直近数週間で発見」
(03:50) OpenBSD 27 年もの、 Linux 権限昇格バグ
(04:26) 米国政府との連携、「ソフトウェアは世界を食った」
(04:50) 「サイバーセキュリティは社会のセキュリティ」
(05:18) クロージング — 数ヶ月から数年の長期プロジェクトとしての位置付け

関連 X 投稿

Introducing Project Glasswing: an urgent initiative to help secure the world's most critical software. It's powered by our newest frontier model, Claude Mythos Preview, which can find software vulnerabilities better than all but the most skilled humans.

出典

An initiative to secure the world's software | Project Glasswing — Anthropic 公式 (YouTube)

関連リソース:

ダリオ・アモデイ

Dario Amodei

Anthropic 共同創業者・CEO / 元 OpenAI 研究担当 VP

ニュートン・チェン

Newton Cheng

Anthropic Frontier Red Team Cyber Lead

用語集

Claude Mythos Preview: Anthropic が 2026 年 2 月 24 日に内部評価を開始した非公開フロンティアモデル。コード生成能力に特化して訓練された結果、副作用としてサイバーセキュリティ能力が飛躍的に向上。主要 OS と全主要 Web ブラウザで数千の zero-day 脆弱性を発見、 OpenBSD で 27 年前のバグ、 FreeBSD で 17 年前の RCE を完全自律で発見・エクスプロイト。一般公開しないという判断は Anthropic 史上初の本格的な RSP 発動。
Project Glasswing: 2026 年 4 月発表の Anthropic 主導サイバーセキュリティ初動計画。名前は透明な羽を持つグラスウィング蝶 (Greta oto) に由来 — 「複雑なコードに埋もれたバグも、見えるようにすれば対処できる」という象徴。 1 億ドルの利用クレジット + 400 万ドルのオープンソース寄付。パートナーは AWS / Apple / Amazon / Google / Microsoft / NVIDIA / Cisco / CrowdStrike / Palo Alto Networks / Broadcom / JPMorgan Chase / Linux Foundation など 40 社以上。
Responsible Scaling Policy (RSP) / AI Safety Level (ASL): Anthropic が 2023 年に発表した責任ある AI スケーリング方針。モデルの能力レベルに応じた AI Safety Level (ASL) を定義し、各レベルでの安全要件 (containment、 monitoring、 alignment) を段階的に強化する。 Mythos Preview は事実上 ASL-4 級の判断 — 「展開リスクが容認できないレベルに達した場合は展開を停止する」という条項の初の本格運用。
脆弱性連鎖 (Vulnerability Chaining): 単独では大した被害を生まない複数の脆弱性を順番に組み合わせて、高度なエクスプロイトを構成する技法。 Mythos の特徴的な能力として Dario が言及。 1 つの脆弱性 (例: 情報漏洩) を別の脆弱性 (例: 権限昇格) の入り口として使い、さらに次の脆弱性 (例: RCE) を実行するような多段攻撃。 Mythos は 3-5 段の連鎖を自律的に構成できる。
集合的 head start: Dario の用語。「世界で最も重要なソフトウェアを動かしている人たちに、他の誰よりも先に Mythos を渡すことで、攻撃者が同等能力に追いつく前に防御を整える時間的優位を作る」。 Project Glasswing の戦略的根拠。 9 - 12 ヶ月のうちにオープンソースモデルが追いつく見立ての中で、この時間差を最大限活用する。