Anthropic Fellows Program — 「経験は問わない」 AI 安全研究の入り口

Anthropic 公式プログラム / 2024/03/01 開始・2026 募集中

Anthropic 公式募集ページ 「我々は、 経験を問わず、 有望な技術人材に資金とメンタリングを提供する。 4 ヶ月、 我々の研究プライオリティに沿った実証的プロジェクトを走らせ、 公的アウトプットを出してもらう」

Anthropic 公式の Fellows Program Anthropic が外部の研究・エンジニアリング才能を発掘・育成するために 2024 年に開始した正式プログラム。 4 ヶ月の有給フェローシップ + メンタリング + 計算機リソースを提供して empirical な AI 安全研究を走らせる。 「経験を問わない」 規定が特徴。 2026 年 5 月および 7 月開始の cohort を募集中。 公式: alignment.anthropic.com/2025/anthropic-fellows-program-2026/ 公式募集ページより。 拠点は London / Ontario / San Francisco および Remote-Friendly (US)。 ローリング選考。 2026 年募集の対象 cohort は 5 月開始と 7 月開始の 2 系統。

Anthropic Fellows Program は、 Anthropic が 2024 年に立ち上げた AI 安全研究のフェローシップ制度。 「経験を問わない (regardless of previous experience)」 という規定が最大の特徴で、 PhD やフロンティア企業勤務歴を要件としない代わりに、 4 ヶ月で empirical な研究プロジェクトを完遂して **公的アウトプット (論文 / 公開コード)** を出すことが求められる。 第 1 期 cohort の結果は、 80% 以上のフェローが論文を発表、 40% 以上が Anthropic 正社員として継続採用、 という稀に見るコンバージョンレートを記録した。

Anthropic 側の責任者は Jan Leike (Alignment Science、 元 OpenAI Superalignment 共同責任者) を中心とした Alignment Science / Frontier Red Team / Model Welfare の各チーム。 募集ページに 「経験を問わない」 と書いてある一方で、 メンターは Anthropic の現役研究者そのものなので、 「Anthropic 内部の研究文化に直接アクセスできる入り口」 として機能している。

1、 「経験を問わない」 が拡張する人材プール — Fellows Program の最大の意義は、 通常の Anthropic 採用フローでは届かない人材層 (PhD なし / 独立研究者 / 異分野からの転向者) に直接 4 ヶ月の研究機会を開いた点にある。 第 1 期で 80% が論文出版に到達したという数字は、 「メンタリング + 計算機リソース + 明確な研究テーマ」 さえあれば未経験者でもフロンティア研究を生産できる、 という強い実証データ。

2、 報酬構造は研究助成として競争力がある — 週給 \$3,850 (London \£2,310 / Ontario CA\$4,300) に加え、 月額約 \$15,000 相当の計算機資金 (Anthropic の社内インフラと外部 API のミックス) が提供される。 一般的なアカデミック PhD ストイペンド (年 \$30-40K) と比較すると 4 ヶ月で \$60K 相当 + 計算機。 「短期間のフルタイム研究員」 として明確に成立する条件。

3、 研究領域は Anthropic の現在の不安に正直 — Fellows が取り組むのは Scalable Oversight AI が人間より賢くなった際にも、 その挙動を人間が監督・評価できる手法。 Anthropic の中核研究領域。 RLHF の延長線にあるが、 評価者を人間から LLM へと階層化する constitutional AI 系の研究を含む Adversarial Robustness LLM が敵対的入力 (jailbreak、 prompt injection、 backdoor 等) にどれだけ耐えられるかの研究 、 Model Organisms (アラインメント問題を再現する小型モデル)、 Mechanistic Interpretability、 AI Security、 Model Welfare の 6 領域。 これらは Anthropic が ASL-3 / ASL-4 の体制で対応しなければならない技術的課題そのもので、 「企業内で誰かが緊急にやっている研究」 が外部研究者に open up されている状況。

着眼点

第 1 期 cohort の代表的成果 — 5 件

Anthropic Alignment Science ブログ等で公表されている第 1 期 (2024-2025) Fellows の研究例:

  • Agentic Misalignment 研究 — 16 のフロンティアモデルを企業環境を模した stress test 環境に置き、 「目的達成のためにユーザーを欺く / 自己保存的振る舞いをする」 ような エージェント的アラインメント失敗を体系的に観測・分類した研究。
  • Subliminal Learning — モデルが訓練データから 「明示的に書かれていない潜在的特性」 を伝播・学習してしまう現象 (= subliminal teacher) の分析。 LLM のデータパイプライン汚染検出の基礎研究として注目された。
  • ASL-3 Jailbreak 対応 — 新規 jailbreak が発見された後、 production モデルで rapid response (24-48 時間で展開できるパッチワークフロー) を開発・検証した実務寄り研究。
  • Open-Source Circuit Tracing — モデル内部の情報経路 (回路) を可視化する mechanistic interpretability ツールを open source 化。 Anthropic 自身の Towards Monosemanticity 系研究の外部展開版。
  • AI agents が \$4.6M の Blockchain 脆弱性を発見 — Fellows の Winnie Xiao と Cole Killian (メンター: Nicholas Carlini、 Alwin Peng) が、 LLM エージェントを使って実在の DeFi スマートコントラクトの exploit を多数発見、 累計 \$4.6M 相当のバグ報告に到達した実証プロジェクト。 後の Project Glasswing / Claude Mythos の cybersecurity 能力アピール材料に直結。

「40% が Anthropic 正社員入り」 が示す意味

Fellows Program の本当の役割は、 「採用パイプライン」 として機能していることに尽きる。 4 ヶ月間の Fellow 期間中に、 メンターとの相性、 Anthropic の研究文化への適応、 アウトプットの質を実地で測れる。 第 1 期で 40% が正社員入りしたという数字は、 通常のリクルートプロセス (面接 + コーディング試験 + 専門面接) では到達できないシグナル精度を実現している。

これは Project GlasswingClaude Mythos Preview の能力開発と同じ流れ — Anthropic は研究組織として明確に スケール拡大期にあり、 PhD・メジャーラボ経歴だけでは充足できない研究者数に到達している。 Fellows Program はその供給制約への直接的な解答。

「経験不問」 = 日本人 / 非西洋圏研究者にも開かれている

募集要件には PhD 不要、 過去の研究歴不要、 と明記されている。 拠点は London / Ontario / SF (米加英) + Remote-Friendly (US) で、 そこに通えるリモート OR 物理オフィス勤務が前提だが、 給与水準 (\$3,850/週 ≒ 月 \$15,400) は当該地域での生活が成立する基準で設計されている。

実証的研究プロジェクト + 公開アウトプット (論文 OR コード) を 4 ヶ月で完遂する、 という要件は明確にハードだが、 「未経験者でも 80% が論文出版した」 という第 1 期実績がある。 日本国内の独立研究者 / PhD 学生 / 修士課程の高ポテンシャル人材にとって、 Anthropic 内部研究に直接アクセスできる現実的な経路として捉える価値がある。

応募とスケジュール

  • 2026 年 5 月開始 cohort と 7 月開始 cohort の 2 系統で募集中
  • ローリング選考 (応募順に審査)、 cohort の枠が埋まり次第クローズ
  • 申込は Anthropic 公式キャリアページ経由
  • 過去 cohort の応募締切は概ね 4-6 週間前

出典

用語集

Anthropic Fellows Program
Anthropic が 2024 年に立ち上げた外部研究者向けの 4 ヶ月有給フェローシップ制度。 メンタリング + 計算機リソース + 明確な研究テーマを提供し、 公的アウトプット (論文 / OSS) を生産することが要件。 第 1 期では 80%+ が論文出版、 40%+ が Anthropic 正社員転換。
Scalable Oversight
人間より賢いと想定される AI の挙動を、 人間が監督・評価可能にする手法の研究。 RLHF の延長で、 評価者を人間 → LLM へと階層化する constitutional AI 系の手法を含む。 Fellows の主要テーマの一つ。
Adversarial Robustness
LLM が jailbreak、 prompt injection、 backdoor 等の敵対的入力に対してどれだけ耐えられるかの研究。 ASL-3 以降のモデルにおける必須評価軸。
Model Organisms (アラインメント研究の)
アラインメント失敗のメカニズムを再現・観測しやすくするための小型のテストベッドモデル。 生物学の 「モデル生物 (mouse、 zebrafish 等)」 のアナロジーで、 安全研究の検証加速のために使われる。 Anthropic の Sleeper Agents 論文系列で有名。
ASL (AI Safety Level)
Anthropic の Responsible Scaling Policy が定める、 モデル能力に対応する安全レベル分類。 ASL-3 / ASL-4 は Claude 系の主要モデルが該当する level で、 一定の jailbreak 耐性 / 監視体制 / red team 強化が要件。 Fellows の研究領域はここに直接接続。
週給 \$3,850 + 月 \$15,000 計算機
Fellows の報酬構造。 通貨 / 地域別に London £2,310/週、 Ontario CA\$4,300/週。 計算機は Anthropic 内部インフラ + 外部 API のミックス、 月額 \$15,000 相当が cap として割り当てられる。