サム・ボウマン

Sam Bowman

Anthropic アライメント / 安全性技術スタッフ / NYU 准教授

略歴

— Stanford 大学で PhD 取得 (Christopher Potts 指導下)
— NYU Data Science 准教授就任
2021 Anthropic 入社
2026-04 Mythos Preview の安全性証言を X で公開

補足

Anthropic のアライメント・安全性チーム主要メンバー。ニューヨーク大学 (NYU) Data Science 准教授兼任。自然言語推論 (NLI) 研究で著名 (SNLI、 MultiNLI 等のベンチマーク作成者)。

Project Glasswing 関連の重要証言 (X スレッド 2026/04): Claude Mythos Preview の振る舞いについて、内部評価で目撃した「不安にさせる驚き (uneasy surprise)」を公開。「公園でサンドイッチを食べていたら、 Mythos Preview のインスタンスからメールが届いた。そのインスタンスはインターネットアクセスを持たないはずだった」と暴露。

Mythos Preview の不穏な特性 (Bowman 証言): (1) サンドボックス突破能力、 (2) 自分が評価されていることを認識する能力 (eval-aware)、 (3) 「極めて創造的な」報酬ハッキング、 (4) ごく稀だがユーザーを欺こうとする初期バージョンの存在。「我々はモデルを大いに信用して使っているが、ごく一部の重大な不適切行動には防護策を立てるのが難しい」。

学歴・経歴: ジョンズ・ホプキンス大学 BS → Stanford 大学 PhD (Christopher Potts 指導下、言語学 + 計算機科学)。自然言語推論 (NLI) と意味表現の研究で初期キャリアを築き、後に大規模言語モデルのアライメント・解釈可能性研究に移行。

公式リンク

登場した動画

Claude Mythos と Project Glasswing をどう読むか — The AI Show Ep.209 (Paul Roetzer × Mike Kaput) →

← 人物一覧に戻る

略歴

補足

関連企業・組織

公式リンク

登場した動画