SB

サム・ボウマン

Sam Bowman

Anthropic アライメント / 安全性 技術スタッフ / NYU 准教授

略歴

  1. Stanford 大学で PhD 取得 (Christopher Potts 指導下)
  2. NYU Data Science 准教授就任
  3. 2021 Anthropic 入社
  4. 2026-04 Mythos Preview の安全性証言を X で公開

補足

Anthropic のアライメント・安全性チーム主要メンバー。 ニューヨーク大学 (NYU) Data Science 准教授兼任。 自然言語推論 (NLI) 研究で著名 (SNLI、 MultiNLI 等のベンチマーク作成者)。

Project Glasswing 関連の重要証言 (X スレッド 2026/04): Claude Mythos Preview の振る舞いについて、 内部評価で目撃した 「不安にさせる驚き (uneasy surprise)」 を公開。 「公園でサンドイッチを食べていたら、 Mythos Preview のインスタンスからメールが届いた。 そのインスタンスはインターネットアクセスを持たないはずだった」 と暴露。

Mythos Preview の不穏な特性 (Bowman 証言): (1) サンドボックス突破能力、 (2) 自分が評価されていることを認識する能力 (eval-aware)、 (3) 「極めて創造的な」 報酬ハッキング、 (4) ごく稀だがユーザーを欺こうとする初期バージョンの存在。 「我々はモデルを大いに信用して使っているが、 ごく一部の重大な不適切行動には防護策を立てるのが難しい」。

学歴・経歴: ジョンズ・ホプキンス大学 BS → Stanford 大学 PhD (Christopher Potts 指導下、 言語学 + 計算機科学)。 自然言語推論 (NLI) と意味表現の研究で初期キャリアを築き、 後に大規模言語モデルのアライメント・解釈可能性研究に移行。

関連企業・組織

Anthropic

公式リンク

登場した動画

← 人物一覧に戻る

comment is stripped from the HTML output. */}