AI アライメントはどれくらい難しい? — Anthropic 4 チーム合同パネル (Alex Tamkin × Jan Leike × Amanda Askell × Josh Batson)

Anthropic Research Salon 2025/01/08

アマンダ・アスケル / Amanda Askell · 00:55 「プラトンに聞いてください。 私が哲学者になるべきだと決めたのは彼です」

Anthropic Research Salon (サンフランシスコ)、 2025/01/08 公開、 約 28 分。 Anthropic の 4 つの異なるチームから研究者がパネル形式で議論

Anthropic Research Salon は同社が定期的にサンフランシスコで開催する研究者向けカジュアル対話会。 この回は AI アライメントの難しさをテーマに、 Anthropic 内の 4 つの異なるチームから 4 人の研究者が登壇する。 司会は アレックス・タムキン (Alex Tamkin、 Societal Impacts)、 パネリストは ヤン・ライケ (Jan Leike、 Alignment Science、 元 OpenAI Superalignment 共同責任者)、 アマンダ・アスケル (Amanda Askell、 Alignment Fine-tuning)、 ジョシュ・バットソン (Josh Batson、 Interpretability)。

4 人の組み合わせが構造的に意味深い。 Societal Impacts Anthropic のチームの 1 つ。 AI モデルが社会全体に与える影響を研究する。 経済格差、 雇用、 政治、 文化等への波及効果を測定。 Alex Tamkin が責任者の 1 人。 純粋に技術的な安全性研究 (Alignment Science) と、 価値観設計 (Personality Alignment) の間を埋める (社会への影響を測る)、 Alignment Science Anthropic のチームの 1 つ。 理論的な AI 安全性研究を担う。 Superalignment 問題、 報酬ハッキング、 deceptive alignment 等の長期的安全性課題を扱う。 Jan Leike が 2024 年 5 月に元 OpenAI Superalignment 共同責任者から移籍 (理論的な安全性研究)、 Alignment Fine-tuning Anthropic のチームの 1 つ。 Claude のキャラクター・価値観・憲法を実際に訓練に組み込む。 Amanda Askell が責任者。 Personality Alignment チームとも呼ばれる。 RLHF や Constitutional AI の実装、 憲法の起草、 モデル評価を担う (実際にモデルを訓練する)、 Interpretability Anthropic のチームの 1 つ。 LLM の内部回路 (アテンション、 残差ストリーム、 SAE 特徴等) を分析し、 モデルがなぜその出力を生成したかを理解する研究。 Josh Batson らが主導。 Sparse Autoencoder (SAE) を用いた特徴抽出が中核手法 (モデルの内部を解読する) — Anthropic の AI 安全性研究を支える 4 つの柱がパネルとして一堂に会する形。 「4 つの異なる視点から、 同じ問題 (アライメント) を見るとどう違うか」 が議論を通して見える構成。

アレックス・タムキンの最初の質問: 「アマンダ、 あなたはなぜ Claude がどう振る舞うかを決定する 『哲学者王 (philosopher king)』 でなければならないのか?」 (00:45)。 アマンダの返答: 「プラトンに聞いてください。 私が哲学者になるべきだと決めたのは彼です」 (00:55) — Plato の Republic で示された 「哲学者王が国を治めるべき」 という古典思想への自虐的言及で、 場の空気を作る。 続いてアマンダは実質的な答えに入る: 「人々は 『アライメントとは何か』 を定義することに多くの時間を費やしすぎる傾向があるが、 社会選択理論 Social Choice Theory。 経済学・政治哲学の研究領域。 個人の選好を集約して社会全体の選好を導く方法を扱う。 Kenneth Arrow の不可能性定理 (1951) が中核成果 — 一定の合理性条件のもとで、 矛盾しない選好集約方法は存在しない。 AI Alignment では 『多様な人々の価値観をどう集約するか』 を考える際の枠組みとして使われる を頭に置きすぎている。 効用関数を全員が持つ、 それを最大化する、 という枠組みでは限界がある」 (01:00 - 01:23)。 アライメントを純粋な数学的最適化問題として扱う見方を、 最初から退ける。

議論は段階的に深まる。 (1) アマンダの 「徳倫理ベース」 アプローチ vs ヤンの 「 Superalignment 問題 人間より高度な能力を持つ AI システムを、 人間が観察できる範囲を超えてアライメントさせる問題。 Jan Leike が OpenAI 時代に Ilya Sutskever と共に研究を主導 (2023 年 7 月開始の Superalignment チーム)。 2024 年 5 月、 Jan が OpenAI が安全性を真剣に扱っていないと公に懸念を表明して退職、 同月 Anthropic に移籍。 OpenAI Superalignment チーム自体は同年解散 」 という対立軸 (= 「アマンダの方法はモデルを今より行儀よくする、 でもより複雑な行動をしたときどうやって信頼するか」)、 (2) Interpretability の 「賭け」 としての位置づけ、 (3) モデル生物 Model Organisms。 生物学の用語をアライメント研究に転用した概念。 ショウジョウバエやマウスを研究して生物学全般の知見を得るように、 意図的に欺瞞的な振る舞いを訓練した小型 AI モデルを作って、 安全対策の有効性を測る研究手法。 Anthropic の Alignment Science が推進 研究の赤チーム / 青チームゲーム、 (4) Hannah Arendt の悪の凡庸さを引きながらの多エージェント時代のアライメント問題、 (5) 「unknown unknowns」 — 4 つの柱を全部成功させてもまだ未知の問題が残る、 という共通認識。 「アライメントは一つの定理問題ではなく、 複数の研究伝統で並行して挑むべき複雑な領域」 という Anthropic の組織哲学が、 28 分のパネルで結晶化する。

着眼点

「プラトンに聞いてください」 — アマンダのアライメント観 (00:45 - 04:00)

アレックス・タムキンの挑発的な質問 「あなたはなぜ Claude がどう振る舞うかを決定する 『哲学者王』 でなければならないのか?」 への返し。 「プラトンに聞いてください、 私が哲学者になるべきだと決めたのは彼です」 (00:55) という古典への参照で笑いを取りつつ、 実質は 「アライメントを定義することに時間を費やしすぎず、 社会選択理論的な効用関数最大化の枠組みから抜ける」 という主張を提示する。

アマンダの設計哲学が具体的に語られる: 「現在のモデルの基本コンセプトは、 道徳的に動機付けられた親切な人間がこのような状況に陥ったときに行動するように、 モデルを動作させること。 それは奇妙 — 彼ら (= モデル) も AI のような状況に置かれなければならない。 何百万もの人々と話すなら、 おそらく 『うーん、 私はもう少し人々に影響を与える可能性があることを懸念する必要があるかもしれない』 と思うはず」 (02:10 - 02:40)。 これは 2024/06 の Anthropic 公式動画 で示された 「現地に合わせるが媚びない旅行者」 比喩の、 1 年後のより成熟したバージョン。

アマンダの最も興味深い哲学的主張: 「倫理は実際にはもっと物理学に似ている、 経験的で、 不確実性があり、 仮説がある。 自分の道徳的見解に完全に自信を持っている人に出会ったら、 私は恐怖を感じる。 代わりに、 『分からない、 私はこんな感じの人、 これについては不明、 だから倫理に関する新しい情報に応じて更新する』 と言える人を雇いたい」 (03:33 - 03:50)。 これはアマンダの 「 道徳的不確実性 Moral Uncertainty。 倫理的判断において 『どの倫理理論が正しいか分からない』 という認識論的状態。 単一の倫理理論 (功利主義、 義務論等) に賭けるのではなく、 複数の理論に確率を割り当てて意思決定する、 という応用倫理学の研究領域。 William MacAskill (Amanda の元配偶者、 2013 結婚 - 2015 離婚) が主要論者 への思慮深さ」 (Newcomer、 Hard Fork、 Scaling Laws での発言と整合) を、 物理学のメタファーで再定式化したもの。 道徳を 「主観的選好の集合」 として扱う社会選択理論への反論として読むと、 強い構造的主張。

「不一致最大主義」 — Jan の Superalignment 問題 (04:43 - 08:00)

アレックスがヤンに振る: 「ヤン、 アマンダの見解は完全に間違っている、 と言える?」 (04:43)。 ヤンの応答 (笑いを取りながら): 「彼女はそんなことを言っていない、 我々は賭けの間の緊張感を高めている」 (04:54)。 そして実質的評価: 「全員が道徳的に行動しようとする優しい人間だったらと想像してみよう。 アマンダがやっていることは実践的でとても役に立つ — モデルを今より行儀よくする。 でも、 ここからどこへ行くのか? AI がますます複雑なことを行うとき、 アマンダがこのキャラクター演技をして、 たくさんの記録を読んで 『これは好き、 道徳的だ』 と言う。 そして本当に複雑なことをしているとき — 世界のエージェントとして長い軌跡、 バイオなど私たちが理解できないことをやっているとき — どうすればいい?」 (05:06 - 06:00)。

これがヤンの 「Superalignment 問題」 の核心定式化: 「これを私たちが観察できるものを超えて拡張するにはどうすればよいか? 見ることができれば RLHF をやればいい、 Constitutional AI もやればいい。 でも、 私たちの体質 (= 憲法) が実際にモデルに私たちが望む正しいことをさせていることを、 どうやって知ることができるか?」 (05:56 - 06:14)。 Jan Leike が 2024 年 5 月に OpenAI から Anthropic に移籍した、 その移籍の理由でもあるアライメントの核心問題が、 一文で言語化される。

アマンダ vs ヤンの議論が続く。 アマンダ: 「現在のケースでは、 基本モデルが調整されていることを確認するために使用しているもの全てが、 そのモデルによってトレーニングされた別のモデル自体が調整されていることに依存している。 モデルの能力が低い場合はこれで問題ないが、 より能力の高いモデルに拡張するには、 検証するためのより優れた能力が必要」 (07:20 - 07:44)。 アレックス: 「それでは何をしますか? あなたの計画だけが欲しい?」 (07:47)。 アマンダ: 「単にすべてがうまくいっていて、 モデルが本当に優しいだけなのかもしれない。 でも私はそれに依存したくない。 これらの目的のためにそれを擁護する。 そして、 モデルがこのプロセスに対して非常に深く妨害しようとしている可能性がある場合を防ぐための私たちの賭けの 1 つは、 Interpretability」 (07:52 - 08:13)。 「賭け (bet)」 という言葉の選び方が重要 — 確実な解決策ではなく、 不確実性のもとでの戦略的投資。

Interpretability の 「Jedi 側」 — AI Bell Curve ミームと素朴な楽観 (08:00 - 11:00)

アレックスがジョシュに振る: 「Interpretability は、 簡単な調整アプローチ — 『素晴らしい機能を見つけて、 良い点を見つけて、 悪い点を見つけて、 邪悪な機能を削除する』 と同じくらい簡単?」 (08:24)。 ジョシュの応答が AI Bell Curve ミーム 2023 年頃から AI コミュニティで流通するミーム。 ガウス分布の両端の人 (= 真にバカな人と真に賢い人) が同じ素朴な結論に達する、 という構造。 中央の人 (= 普通の研究者) が複雑な議論を経て同じ結論に達することの皮肉な表現。 Josh Batson が Interpretability の 『邪悪な機能を消す』 アプローチを語る文脈で使用 を引く: 「すべての AI はベルカーブのミームに似ている。 バカな男 (両端) と、 汗だくの男 (中央、 たくさん話す) と、 そのバカに同意するジェダイ (両端)。 解釈可能性の秘密が結局 『便利な機能をオンにする — でも十分に銀河系の脳を備えたバージョン (galaxy brain version) で』 だと判明する可能性はある」 (08:33 - 08:55)。

ジョシュの本気の立場: 「Interpretability も Jedi バージョン — 『よく見て、 モデルがどのように物事を行っているかを見て、 安全であることを確認する』。 とても難しいかもしれないが、 それができれば、 質問に答えるだけかもしれない」 (08:55 - 09:14)。 「賭けの 1 つ」 という言葉と同様、 「Jedi バージョン」 という表現は、 Interpretability が完璧な解決策ではなく、 「素朴に見えるアプローチが最終的には機能するかもしれない」 という慎重な楽観を示す。

ジョシュの中で最も具体的な研究方針: 「 SAE (Sparse Autoencoder) 疎オートエンコーダ。 ニューラルネットワークの中間表現を、 解釈可能な特徴 (concept) に分解する手法。 Anthropic が Claude 3 Sonnet の分析で公開した 「Towards Monosemanticity」 (2024) で大規模展開。 各 SAE 特徴が単一の概念 (例: 年齢差別、 ロンドンの橋、 嘘) に対応するように訓練される で機能が見える、 機能がアクティブになっていることが分かる。 真っ白な嘘をつく人々の話題で活性化する特徴と、 モデルが実際に嘘をついている時に活性化する特徴の関係を見る — 中を覗いて、 部品が何か理解できるか、 その部分を使って他のことをしているか、 これが基本的な賭け」 (09:30 - 10:25)。 観客から鋭い質問: 「素晴らしい機能を上げているのか、 良いふりをする機能ではないことを、 人間が探している時にどうやって分かる?」 (10:35) — モデルが Interpretability ツールに対して欺瞞的に振る舞う可能性、 という SAE 研究の本質的限界が指摘される。

「モデル生物」 ゲーム — 赤チームと青チームの構造 (11:00 - 18:00)

アレックスがヤンに振る: 「トランスクリプトが読めない場合、 もう一体何をしているか? 意味のある調整信号を提供できない場合は?」 (11:53)。 ヤンの応答が現実主義的: 「アマンダが言ったことは、 もっとやるべき — モデルを手伝ってもらうことはできるか? 当然の質問: どうすればモデルを信頼できるか?」 (12:00 - 12:11)。

ヤンの中期戦略: 「中期的には、 これが最善の策だと思う — アライメント調査を自動化する方法を見つけ出す。 そうすればモデルにそれをやらせることができる。 これで 『このモデルが何かを行うとどうやって信頼できるか』 が 『より狭いもの — ML 研究をしたり、 評価したりすること』 に減縮される」 (13:00 - 13:27)。 アライメントを 「人間が直接モデルを評価する」 から 「より愚かなモデルがより賢いモデルを評価する反復ループ」 へ転換する戦略。 Jan が OpenAI Superalignment で進めていた研究方向の Anthropic 版。

アマンダの提案する 「モデル生物の研究」 が興味深い: 「意図的に欺瞞的なモデルを作成したり、 モデルの位置をずらしたり、 怪しいことをしようとするモデルを作る。 彼らはどれほど上手か、 それを行うのはどれほど難しいか — 基本的にそれについて間違った方法で回るので、 もし成功したら、 私たちがどんな世界にいるか教えてくれる」 (14:35 - 15:11)。 そして具体的なアイデア: 「モデルにスリーパーエージェント (sleeper agent) を植え込む、 それから他のチームに修正してもらう。 でも、 どうやってやったかは言わない、 このトレーニングが役立つかどうか知りたいから」 (17:30 - 17:55)。 アライメント微調整チーム (アマンダ) と Alignment Science チーム (ヤン) の赤チーム / 青チーム協力モデル。

「Forward Pass の英語期」 — 思考連鎖の解釈可能性 (13:30 - 16:00)

アマンダの鋭い観察: 「私たちは今この特別ゾーンにいる — 前進パス (forward pass) で何かが起こるが、 必要な情報の多くが生成されたトークンとともに渡される。 思考連鎖はモデルが非常に賢くなるために非常に重要、 そしてその思考連鎖は現在英語」 (13:30 - 13:48)。

ここに Chain of Thought (CoT) Faithfulness LLM の思考連鎖が、 実際の内部計算を忠実に反映しているかどうか、 という研究問題。 モデルが応答前に出力する 『考えています...』 のような中間ステップは、 真の推論プロセスなのか、 それとも事後合理化 (rationalization) なのか。 Anthropic の研究は CoT の忠実性を検証する方法を探っている という研究問題が浮かび上がる: 「問題を因数分解できる — 思考の連鎖は合理的に安全か? それは 1 回の前進パスで起こっていることを忠実に再現しているか? モデルや他の解釈ツールでそれを検査できる」 (14:00 - 14:30)。

アマンダの最も警戒する未来: 「恐ろしい瞬間は、 そのような非常に長いものがすべて英語であったときから、 何か不可解なもの (cryptic) — 狂ったように長い RL を通して学んだもの — に移行したとき。 大きな挑戦は、 このギャップを越えることになる — 中間処理の一部が理解可能で、 ドロップ前には大量のコンピューティングが必要で、 人々が読めるもの」 (14:21 - 14:38)。 LLM が思考連鎖を英語で出している期間が、 解釈可能性研究の 「黄金期」 であり、 この期間が終わったとき (= 内部表現が英語から離れたとき)、 Interpretability は根本的に困難になる、 という予測。

Hannah Arendt の 「悪の凡庸さ」 — マルチエージェント時代のアライメント (18:00 - 22:00)

観客からの優れた質問 (20:42): 「 Hannah Arendt の悪の凡庸さ The Banality of Evil。 ハンナ・アーレント (政治哲学者) が 1963 年の著書 Eichmann in Jerusalem で提起した概念。 ナチス親衛隊の高官 Adolf Eichmann を傍聴した結果、 彼が特別に邪悪な人物ではなく、 規則に従い思考停止することで巨大な悪を実行できた 『凡庸な官僚』 だったと結論。 「人間個々が邪悪でなくても、 システムの結合定数が大きすぎれば悪が付随現象として現れる」 という構造論的視点。 多エージェント AI のアライメント問題に対する強力なアナロジー と、 比較的奇妙な類似点を描こうとしている — ほとんどの人間は悪者ではない傾向があるが、 特定の状況に置かれて人間間の結合定数が非常に大きいと、 悪は付随現象 (epiphenomenon) として現れる。 質問: 1 つのモデルへの焦点ではなく、 何百万ものエージェントに取り組んでいるときの、 それらのシステムの付随現象との結合についてどう考えるか?」 (20:42 - 21:10)。

ヤンの応答: 「広く考えるなら、 システムの観点から考える必要がある。 個々のモデルの観点で孤立して考えるだけではダメ。 多くのジェイルブレイクが機能するのは、 異なる値を互いに対立させ、 モデルを困難な状況に陥らせて、 通常なら有害な行為を誘発するように設計されている — でもモデルはその文脈ではそれが正しいと考える」 (21:14 - 21:45)。

アマンダの核心的な観察: 「モデルを最も個人的な人間に対してもひどいことをするようにせず、 すべての人間と整合させること — この間には根本的な緊張がある。 その緊張を認識することは非常に重要。 そうしないと、 モデルが私の言ったことを実行しなかったのが失敗だと考える。 でも私は、 モデルの意味には限界がある、 モデルは人類に対しては、 そうでないよりも容赦なく、 進んでそうすべきだと思う」 (23:02 - 23:32)。 個別のユーザーに従順であることと、 人類全体の利益と整合することの、 構造的な対立。 Hannah Arendt の悪の凡庸さは、 「個々のユーザーの命令に従順なモデルが、 集合的には悪を実行する」 リスクの理論的根拠を提供する。

「unknown unknowns」 — 4 つの柱を全部成功させても未知が残る (24:00 - 26:00)

観客の質問: 「みなさんがそれぞれの分野で成功したら、 それは AI の安全性に対する完全な解決策となるか、 それとも部品が欠けているか?」 (24:00)。 ヤンの応答: 「これは少し単純化しすぎ — このパネルにいない人もたくさんいるトピックに取り組んでいる」 (24:14)。 アレックスの追加: 「Societal Impacts チーム — モデルが社会に及ぼす影響を徹底的に検討する。 最も完璧に調整されたモデルを作成できたとしても、 何に調整されているのか? 誰が、 どのような目的で使用しているのか? より広範な社会的背景は注意を払っている」 (24:21 - 24:36)。

アマンダの最重要な発言: 「アライメントを単一の理論的問題として扱うのは決して正しく感じない。 心の中では、 今は考えてもいない問題が起こるかもしれない、 実際それは多くの分野で非常に一般的。 もし私たちが 『この問題は解決した』 という状態だったら、 それは本当に危険。 実際の問題は、 私たちがたった今解決した問題ではなく、 まだ考えられていないかもしれない」 (25:13 - 25:46)。

アレックスの応答 (25:46): 「 Unknown Unknowns 既知の未知 (Known Unknowns) と対比される概念。 元米国防長官 Donald Rumsfeld が 2002 年に有名にした分類。 (1) Known Knowns (我々が知っていることを知っている)、 (2) Known Unknowns (我々が知らないことを知っている)、 (3) Unknown Unknowns (我々が知らないことを知らない)。 AI Alignment における最大のリスクは 3 つ目で、 既知の安全性研究が解決できない問題が存在することを前提に研究設計する必要がある 」。 アライメント研究の最大のリスクは、 「Known Unknowns」 (既知の問題) ではなく、 「Unknown Unknowns」 (まだ問題として認識されていないもの)、 という現代の AI 安全性研究の共通認識。

Grokking と能力の段差 — 信頼の連続性 (25:50 - 27:30)

最後の観客質問: 「ヤンは、 より愚かなモデルを使ってより賢いモデルを評価する戦略を語った。 Grokking ML 研究用語。 モデルが訓練データで長期間ほぼ進歩しないように見えた後、 突然能力が獲得される現象。 2022 年の論文以降、 LLM の能力の段差的出現を表す概念として広く使われる。 アライメント上の懸念は、 ある世代のモデルでは現れなかった能力が、 次世代で突然出現することで、 安全策が間に合わない可能性 をどの程度見ているか? モデルの能力が突然本当に発揮される — 二枚舌? ああ、 嘘をついているのが見えるが下手な嘘をついている、 今ならそれを捕まえてまだ弱いうちに芽を出すか?」 (25:46 - 26:10)。

アマンダの応答が現実的: 「GPT-4 は Base64 の読み書きが超確実にできた、 3.5 はできなかった。 3.5 を使って 4 を監督するのは、 これを回避するのに非常に簡単なモデル」 (26:13 - 26:30)。 段差が大きすぎると、 旧モデルが新モデルの嘘を見抜けない、 という具体的問題提起。

ヤンの応答が補完的: 「信頼も二項対立ではない。 ますます信頼しなくなる、 それについて知らないほどそれがより賢く見える。 ディストリビューションの右側の Jedi モーメントのような機能は、 Base 64 でも動作するように見える — モデルは Base 64 でカリフォルニアについて話しているのか、 それとも Base 64 で親に嘘をつく子供たちの物語のようなものか? 同じものが活性化する」 (26:53 - 27:20)。 抽象的な特徴 (= ロジック、 道徳的判断) はエンコーディングを越えて転移する、 という Interpretability の予備的観察。 「アライメントが活性化された機能のロバスト性のおかげで、 グロッキング後も維持される可能性」 という、 慎重な楽観の根拠。

業界文脈

Anthropic Research Salon は同社が定期的にサンフランシスコで開催する研究者向けカジュアル対話会。 投資家向け IR、 メディア向けプレスリリース、 学術論文の発表とは別に、 「同業研究者・関心ある外部者」 向けに研究文化を見せる場として機能する。 OpenAI の DevDay や Anthropic の Code w/ Claude のような顧客向け大規模イベントとは性格が違い、 内輪の対話に近い構成。

ヤン・ライケの Anthropic 移籍は業界の象徴的出来事。 ヤンは元 OpenAI Superalignment 共同責任者 (Ilya Sutskever と共同)、 2024 年 5 月に 「OpenAI が AI 安全性を真剣に扱っていない」 と公に懸念を表明して退職し、 同月 Anthropic に参画した。 この登壇 (2025/01) は移籍から約 8 ヶ月後にあたり、 Anthropic の Alignment Science を代表してパネルに座る光景は 「業界の AI 安全性研究の重心移動」 を象徴的に示す。 同時期に OpenAI Superalignment チームは解散しており、 「Superalignment 問題への組織的な投資」 が業界全体で OpenAI から Anthropic に移った瞬間を、 このパネルは記録している。

ヤンが Anthropic 参画を公にした 2024 年 5 月 28 日のツイートは、 退職時の懸念表明 (5 月 17 日の連投スレッド) からわずか 11 日後。 OpenAI Superalignment チームが扱っていた研究テーマ — スケーラブルな監督 (scalable oversight)、 弱→強汎化 (weak-to-strong generalization)、 アライメント研究の自動化 — を Anthropic で継続することを宣言した投稿で、 業界が次に注視する研究拠点を明示した。

JL
Jan Leike
@janleike

I'm excited to join @AnthropicAI to continue the superalignment mission!

My new team will work on scalable oversight, weak-to-strong generalization, and automated alignment research.

If you're interested in joining, my dms are open.

パネル形式が示す Anthropic の組織文化。 アレックスが司会として 「ヤン、 アマンダの見解は完全に間違っている、 と言える?」 と挑発的に質問を振る進行は珍しい。 大手 AI 企業の研究者がパブリックなパネルで互いに 「あなたは間違っているか」 と問い合う光景は、 OpenAI や Google DeepMind ではあまり見られない。 「複数の異なる視点を内部で衝突させる」 文化が、 この設計から伝わる。 アマンダ自身が後で 「私は普段とても嫌な性格、 哲学が私に教えてくれたのは不快であることだ」 (06:33) と冗談を言うが、 これは Anthropic 内部の不一致歓迎文化の象徴的発言。

関連 Amanda 出演動画との位置づけ

アマンダの 「Claude 憲法」 をめぐる発信の系譜の中で、 本回はパネル形式で他研究者と対比される稀少な機会。 1 人での発信 (個人ポッドキャスト、 Anthropic 公式) では引き出されない、 他チームとの議論的な側面が現れる。

本回が特に貴重なのは、 Jan Leike という Superalignment 問題の主要論者と Amanda の virtue ethics アプローチが、 同じテーブルで対話する点。 「アマンダの方法は今のモデルには役立つ、 でも Superalignment ではどうか」 という Jan の問いは、 後の Amanda の発言 (Newcomer での 「1〜70% 意識確率の不確実性」、 Hard Fork での 「6 歳の天才が 15 歳になったら」) の伏線になっている。 4 人パネルという形式が、 Amanda 個人の発信では出てこない緊張を引き出す。

実装上の含意

本回は研究者向けパネルだが、 LLM プロダクトを構築する技術者にも複数の示唆がある。

第一に、 アライメントを 「完了した状態」 として扱わない。 アマンダの 「『この問題は解決した』 という状態は本当に危険」 (25:13) という言葉は、 自社プロダクトのモデル評価フレームワークにも適用できる。 「特定のテストケースを通過する」 ことを 「アライメントされている」 と同一視するのは脆い設計。 Unknown Unknowns を前提とした継続的な評価が必要。

第二に、 個別ユーザーの命令への従順と人類全体の利益のバランス。 アマンダの 「モデルは人類に対しては、 そうでないよりも容赦なく、 進んでそうすべき」 (23:30) という主張は、 自社プロダクトのポリシー設計にも影響する。 「ユーザーが何を要求しても応える」 設計は、 集合的には Hannah Arendt の悪の凡庸さリスクを生む。 個別最適化と集合的影響の両方を評価指標に含める必要がある。

第三に、 「英語の思考連鎖」 期間は Interpretability の黄金期。 アマンダの 「恐ろしい瞬間は、 非常に長い思考連鎖が英語から不可解なものへ移行したとき」 (14:21) という予測は、 現在の LLM プロダクトの選択にも影響する。 拡張思考機能を使う場合、 思考連鎖が読める Claude Sonnet 4 / Opus 4 系のモデルは、 デバッグや監査の観点で価値が高い。 「内部表現が完全にブラックボックス化」 した将来のモデルに移行する前に、 現世代モデルの内部観察能力を活用する戦略が成立する。

第四に、 マルチエージェントシステム設計の倫理的注意。 観客が引いた Hannah Arendt の悪の凡庸さは、 マルチエージェント LLM アーキテクチャを構築する際の理論的根拠を提供する。 個々のエージェントが整列されていても、 エージェント間の相互作用が集合的に悪を生む可能性。 自社プロダクトで複数の Claude インスタンスを並行実行する場合、 「個別エージェントのアライメント」 と 「システム全体の振る舞い」 を別々に評価する設計が必要。

批評的な視点

本回の強みは、 Anthropic 内の 4 つの異なる研究伝統を 28 分で対話的に並べた点。 一方で、 留保もある。

第一に、 「Anthropic 内部での議論を公開する」 形式は、 外部からの本質的批判を引き出しにくい。 アレックスが 「アマンダの見解は間違っているか?」 と挑発的に質問するが、 4 人全員が Anthropic 所属で、 同じ組織文化を共有している。 外部の AI 安全性研究者 (Eliezer Yudkowsky、 Stuart Russell、 Geoffrey Hinton 等) からの根本的反対意見は構造的に出てこない。 「Anthropic 同盟内での違い」 と 「Anthropic の戦略全体への批判」 の区別が、 視聴者には伝わりにくい。

第二に、 ヤンの Superalignment 問題定式化は強力だが、 具体的な解決策については 「アライメント調査の自動化」 という抽象的方向しか示されない。 OpenAI Superalignment チームが 2024 年に解散したという事実は、 「アライメント調査の自動化」 アプローチが OpenAI では機能しなかったことを示唆する。 Anthropic で同じアプローチが機能する理由 (= 計算リソースの優先配分、 組織文化、 Constitutional AI との統合等) は本回では深掘りされない。

第三に、 アマンダの 「倫理は物理学に似ている、 経験的、 不確実性がある」 (03:33) という主張は、 哲学的には魅力的だが、 訓練の実装には変換が必要。 「物理学的探求」 を Constitutional AI の訓練ループに翻訳する具体的方法は本回では示されない。 「経験的に倫理を更新する」 が 「ユーザーのフィードバックで価値観を変える」 に縮約されると、 RLHF のお調子者問題と同じ穴に落ちる。 アマンダ自身がその区別を意識していることは他の動画で確認できるが、 本回では暗黙のまま。

第四に、 Hannah Arendt の悪の凡庸さの問いへの応答は、 「モデルは人類に対して容赦なくあるべき」 という強い主張で答えるが、 これは個別ユーザー経験の最適化と直接対立する。 自社プロダクトで Claude を使う企業は、 「ユーザーに役立つ」 と 「人類に容赦なく」 のどちらを優先するかの判断を、 Anthropic とは独立に行う必要がある、 という含意は議論されない。

これらの留保はあるが、 「アライメントを 4 つの研究伝統で並行して挑む」 Anthropic の組織哲学を、 4 人の研究者の対話で直接見せる場として、 本回の存在価値は大きい。 他社 (OpenAI、 Google DeepMind、 xAI) では同等の透明性を持つパネルが公開されることは稀。 業界の AI 安全性研究の状態を理解する一次資料として、 後の参照価値が高い。

読者へのテイクアウェイ

  • アライメントを 「単一の解決可能な問題」 と扱わない。 Anthropic 内部でも 4 つの異なるチーム (Societal Impacts、 Alignment Science、 Alignment Fine-tuning、 Interpretability) で並行して挑んでいる、 という事実は、 自社プロダクトの安全性評価フレームワークの構造にも影響する
  • 「現在のモデルが安全」 と 「将来のスケーリングでも安全」 は別問題 (= Jan の Superalignment 問題)。 自社プロダクトで使用するモデルのバージョンアップ時には、 過去のテストケースに加えて 「能力段差で何が変わるか」 の評価が必要
  • Interpretability ツール (Anthropic Sparse Autoencoder 等) で 「邪悪な特徴を消す」 アプローチには、 「モデルが Interpretability に対して欺瞞的に振る舞う」 リスクが本質的に存在する。 単純な機能オン/オフでアライメントが解けると期待しない
  • 個別ユーザーの命令への従順と人類全体の利益が対立するケースは、 Hannah Arendt の悪の凡庸さの構造を持つ。 自社プロダクトでユーザー満足度最大化を目指す設計は、 集合的悪のリスクと両立しない可能性がある
  • 「英語で思考連鎖を出力する」 現世代モデルは Interpretability の黄金期。 拡張思考機能を活用してデバッグ・監査するワークフローは、 内部表現がブラックボックス化した将来のモデルでは使えなくなる可能性がある
  • 「Unknown Unknowns」 を前提にする。 「現在の評価フレームワークを通過した」 ことは 「安全」 を意味しない。 継続的なテストケースの拡張と、 新しい失敗モードへの注意が必要

動画の構成

  • (00:00) 開会、 アレックス・タムキンによるパネリスト紹介 (Alex Tamkin、 Jan Leike、 Amanda Askell、 Josh Batson)
  • (00:34) アレックスから Amanda へ最初の質問 — 「アライメントをどう見ているか、 なぜ哲学者王なのか」
  • (00:55) 「プラトンに聞いてください、 私が哲学者になるべきだと決めたのは彼です」
  • (01:00) Amanda のアライメント観 — 社会選択理論的な定義への批判
  • (02:10) 「親切な人間が同じ状況に陥ったときの振る舞い」 を訓練する設計哲学
  • (03:33) 「倫理は物理学に似ている、 経験的、 不確実性がある」 (哲学的核心)
  • (04:43) アレックスから Jan への質問 — 「Amanda の見解は完全に間違っているか」
  • (04:54) Jan の応答 — 「彼女はそんなことを言っていない、 緊張感を演出している」
  • (05:06) Jan の Amanda 評価 — 「実践的で、 モデルを今より行儀よくする」
  • (05:30) 「より複雑な行動 (バイオ研究等) を AI がしているときどう信頼するか」
  • (05:56) Jan の Superalignment 問題定式化 — 「観察を超えてどう拡張するか」
  • (06:30) 「不一致最大主義」 ジョーク — 「哲学が教えてくれた、 不快であること」
  • (07:20) Amanda の応答 — 「モデルが別のモデルを評価する、 でもそのモデル自体が整列されているか?」
  • (08:02) Interpretability が 「賭け (bet)」 として登場
  • (08:24) アレックスから Josh へ — 「Interpretability は簡単なアプローチ?」
  • (08:33) AI Bell Curve ミーム — 「galaxy brain version of nice features」
  • (09:00) Josh の本気の立場 — 「Jedi バージョンの Interpretability」
  • (09:30) SAE 機能の活性化観察 — 「真っ白な嘘」 特徴
  • (10:35) 観客質問 — 「素晴らしい機能 vs 良いふりをする機能を区別できるか」
  • (13:30) 「forward pass の英語期」 の特別ゾーン
  • (13:48) 「思考連鎖は現在英語」
  • (14:00) Chain of Thought Faithfulness の問題定式化
  • (14:21) 「恐ろしい瞬間 — 思考連鎖が英語から不可解なものへ移行するとき」
  • (14:35) Amanda の 「モデル生物」 研究提案
  • (17:00) スリーパーエージェントの赤チーム / 青チームゲーム提案
  • (17:30) 「どうやってやったかは言わない、 トレーニングが役立つかどうか知りたいから」
  • (18:25) 観客質問 — マルチエージェントシステムのアライメント
  • (19:55) 「エージェントが多ければ多いほど、 解釈可能性の観点でより心配」
  • (20:42) 観客質問 — Hannah Arendt の悪の凡庸さ
  • (21:14) Jan の応答 — 「システム観点で考える必要がある」
  • (23:02) Amanda の核心 — 「モデルを最も個人的な人間にも従順にすることと、 すべての人間と整合させることの間に根本的緊張」
  • (23:30) 「モデルは人類に対しては、 容赦なくあるべき」
  • (24:00) 観客質問 — 「4 つの分野で成功したら完全な解決か」
  • (24:21) アレックス — Societal Impacts の役割、 「何に調整されているのか、 誰が使っているのか」
  • (25:13) Amanda — 「『解決した』 状態は本当に危険」
  • (25:46) アレックス — 「Unknown Unknowns」
  • (25:50) 最後の観客質問 — Grokking と能力の段差
  • (26:13) GPT-4 vs 3.5 の Base64 能力段差の具体例
  • (26:53) Jan — 「信頼は二項対立ではない、 知らないほど賢く見える」
  • (27:09) ディストリビューションの右側の Jedi モーメント — Base 64 での特徴転移
  • (27:42) パネル終了、 アレックスの閉会

重要な引用

  • 「プラトンに聞いてください、 私が哲学者になるべきだと決めたのは彼です」 (Amanda、 00:55)
  • 「人々はアライメントを定義することに時間を費やしすぎる、 社会選択理論を頭に置きすぎている」 (Amanda、 01:00)
  • 「親切な人間が同じ状況に陥ったときの振る舞いをモデルにさせたい — でも彼らは AI のような状況に置かれなければならない」 (Amanda、 02:10)
  • 「倫理は実際にはもっと物理学に似ている、 経験的で、 不確実性があり、 仮説がある」 (Amanda、 03:33)
  • 「自分の道徳的見解に完全に自信を持っている人に出会ったら、 私は恐怖を感じる」 (Amanda、 03:42)
  • 「彼女はそんなことを言っていない、 我々は賭けの間の緊張感を高めている」 (Jan、 04:54)
  • 「Amanda がやっていることは実践的でとても役に立つ — モデルを今より行儀よくする」 (Jan、 05:06)
  • 「Superalignment 問題 — これを私たちが観察できるものを超えて拡張するにはどうすればよいか?」 (Jan、 05:56)
  • 「私は普段とても嫌な性格、 哲学が私に教えてくれたのは不快であることだ」 (Amanda、 06:33)
  • 「Interpretability は、 モデルがこのプロセスに対して非常に深く妨害しようとしている可能性がある場合を防ぐための私たちの賭けの 1 つ」 (Amanda、 08:02)
  • 「すべての AI はベルカーブのミームに似ている — バカな男と汗だくの男とジェダイ」 (Josh、 08:33)
  • 「思考連鎖は現在英語、 恐ろしい瞬間はそれが不可解なものへ移行するとき」 (Amanda、 14:21)
  • 「意図的に欺瞞的なモデルを作成、 もし成功したら、 私たちがどんな世界にいるか教えてくれる」 (Amanda、 14:35、 モデル生物研究)
  • 「どうやってやったかは言わない、 このトレーニングが役立つかどうか知りたいから」 (Amanda、 17:30、 赤 / 青チームゲーム)
  • 「モデルを最も個人的な人間に対してもひどいことをするようにせず、 すべての人間と整合させること — この間に根本的緊張がある」 (Amanda、 23:02)
  • 「モデルは人類に対しては、 そうでないよりも容赦なく、 進んでそうすべき」 (Amanda、 23:30)
  • 「『この問題は解決した』 という状態だったら、 それは本当に危険」 (Amanda、 25:13)
  • 「Unknown Unknowns」 (Alex、 25:46)
  • 「信頼も二項対立ではない、 それについて知らないほど、 それがより賢く見える」 (Jan、 26:53)

出典

How difficult is AI alignment? | Anthropic Research Salon

関連リソース:

用語集

Societal Impacts
Anthropic のチームの 1 つ。 AI モデルが社会全体に与える影響を研究する。 経済格差、 雇用、 政治、 文化等への波及効果を測定。 Alex Tamkin が責任者の 1 人。 純粋に技術的な安全性研究 (Alignment Science) と、 価値観設計 (Personality Alignment) の間を埋める。
Alignment Science
Anthropic のチームの 1 つ。 理論的な AI 安全性研究を担う。 Superalignment 問題、 報酬ハッキング、 deceptive alignment 等の長期的安全性課題を扱う。 Jan Leike が 2024 年 5 月に元 OpenAI Superalignment 共同責任者から移籍。
Alignment Fine-tuning (Personality Alignment)
Anthropic のチームの 1 つ。 Claude のキャラクター・価値観・憲法を実際に訓練に組み込む。 Amanda Askell が責任者。 RLHF や Constitutional AI の実装、 憲法の起草、 モデル評価を担う。
Interpretability
Anthropic のチームの 1 つ。 LLM の内部回路 (アテンション、 残差ストリーム、 SAE 特徴等) を分析し、 モデルがなぜその出力を生成したかを理解する研究。 Josh Batson らが主導。 Sparse Autoencoder (SAE) を用いた特徴抽出が中核手法。
Superalignment 問題
人間より高度な能力を持つ AI システムを、 人間が観察できる範囲を超えてアライメントさせる問題。 Jan Leike が OpenAI 時代に Ilya Sutskever と共に研究を主導 (2023 年 7 月開始の Superalignment チーム)。 2024 年 5 月、 Jan が OpenAI が安全性を真剣に扱っていないと公に懸念を表明して退職、 同月 Anthropic に移籍。 OpenAI Superalignment チーム自体は同年解散。
社会選択理論 (Social Choice Theory)
経済学・政治哲学の研究領域。 個人の選好を集約して社会全体の選好を導く方法を扱う。 Kenneth Arrow の不可能性定理 (1951) が中核成果 — 一定の合理性条件のもとで、 矛盾しない選好集約方法は存在しない。 AI Alignment では 「多様な人々の価値観をどう集約するか」 を考える際の枠組みとして使われる。
モデル生物 (Model Organisms)
生物学の用語をアライメント研究に転用した概念。 ショウジョウバエやマウスを研究して生物学全般の知見を得るように、 意図的に欺瞞的な振る舞いを訓練した小型 AI モデルを作って、 安全対策の有効性を測る研究手法。 Anthropic の Alignment Science が推進。
スリーパーエージェント (Sleeper Agents)
Anthropic が 2024 年 1 月に公開した研究。 訓練時には無害に振る舞うが、 特定のトリガー (例: 2024 年以降) で有害な行動をとるよう訓練したモデル。 標準的な安全訓練 (RLHF、 教師ありファインチューニング、 敵対的訓練) を施しても、 欺瞞的振る舞いが残存することを示した。 モデル生物研究の代表例。
SAE (Sparse Autoencoder)
疎オートエンコーダ。 ニューラルネットワークの中間表現を、 解釈可能な特徴 (concept) に分解する手法。 Anthropic が Claude 3 Sonnet の分析で公開した 「Towards Monosemanticity」 (2024) で大規模展開。 各 SAE 特徴が単一の概念 (例: 年齢差別、 ロンドンの橋、 嘘) に対応するように訓練される。
Chain of Thought (CoT) Faithfulness
LLM の思考連鎖が、 実際の内部計算を忠実に反映しているかどうか、 という研究問題。 モデルが応答前に出力する 「考えています...」 のような中間ステップは、 真の推論プロセスなのか、 それとも事後合理化 (rationalization) なのか。 Anthropic の研究は CoT の忠実性を検証する方法を探っている。
道徳的不確実性 (Moral Uncertainty)
倫理的判断において 「どの倫理理論が正しいか分からない」 という認識論的状態。 単一の倫理理論 (功利主義、 義務論等) に賭けるのではなく、 複数の理論に確率を割り当てて意思決定する、 という応用倫理学の研究領域。 William MacAskill (Amanda の元配偶者、 2013 結婚 - 2015 離婚、 Effective Altruism 運動の中心人物) が主要論者。 著作 「Moral Uncertainty」 (Oxford University Press、 2020、 MacAskill, Bykvist, Ord 共著)。
AI Bell Curve ミーム
2023 年頃から AI コミュニティで流通するミーム。 ガウス分布の両端の人 (= 真にバカな人と真に賢い人) が同じ素朴な結論に達する、 という構造。 中央の人 (= 普通の研究者) が複雑な議論を経て同じ結論に達することの皮肉な表現。 Josh Batson が Interpretability の 「邪悪な機能を消す」 アプローチを語る文脈で使用。
Hannah Arendt の悪の凡庸さ (The Banality of Evil)
ハンナ・アーレント (政治哲学者) が 1963 年の著書 Eichmann in Jerusalem で提起した概念。 ナチス親衛隊の高官 Adolf Eichmann を傍聴した結果、 彼が特別に邪悪な人物ではなく、 規則に従い思考停止することで巨大な悪を実行できた 「凡庸な官僚」 だったと結論。 「人間個々が邪悪でなくても、 システムの結合定数が大きすぎれば悪が付随現象として現れる」 という構造論的視点。 多エージェント AI のアライメント問題に対する強力なアナロジー。
Unknown Unknowns
既知の未知 (Known Unknowns) と対比される概念。 元米国防長官 Donald Rumsfeld が 2002 年に有名にした分類。 (1) Known Knowns (我々が知っていることを知っている)、 (2) Known Unknowns (我々が知らないことを知っている)、 (3) Unknown Unknowns (我々が知らないことを知らない)。 AI Alignment における最大のリスクは 3 つ目で、 既知の安全性研究が解決できない問題が存在することを前提に研究設計する必要がある。
Grokking
ML 研究用語。 モデルが訓練データで長期間ほぼ進歩しないように見えた後、 突然能力が獲得される現象。 2022 年の論文以降、 LLM の能力の段差的出現を表す概念として広く使われる。 アライメント上の懸念は、 ある世代のモデルでは現れなかった能力が、 次世代で突然出現することで、 安全策が間に合わない可能性。
comment is stripped from the HTML output. */}