Claude 憲法を法律家が読む — 20,000 ワードの「魂の設計図」を法学から問う (Scaling Laws × Amanda Askell)

Scaling Laws (Lawfare + UT Austin) 2026/02/20

ケビン・フレイジャー / Kevin Frazier · 04:11 「私は退屈な法律家で、セント・トーマス大学で連邦憲法を教えていた。クロードの憲法を見た瞬間、すぐに純粋な法的モードに入った」

Scaling Laws ポッドキャスト (Lawfare + テキサス大学オースティン校ロースクール共同制作)、 2026/02/20 公開、約 45 分

Scaling Laws = Lawfare (米法律ニュースサイト) とテキサス大学オースティン校ロースクールが共同制作する「AI × 法律 × 政策」のポッドキャスト。司会はアラン・ローゼンシュタイン (Alan Rozenshtein、ミネソタ大学ロースクール准教授 / Lawfare 研究ディレクター) とケビン・フレイジャー (Kevin Frazier、 UT Austin AI Innovation and Law フェロー / Lawfare シニアエディター)。この 45 分の回は、 Anthropic が 2026 年初頭に公開した Claude 憲法 (20,000 ワード超) を法律家として読み解く、という珍しい角度の対話。

ゲストはアマンダ・アスケル (Amanda Askell) — Anthropic Personality Alignment チーム責任者、 Claude 憲法の主要著者。法律家ホスト 2 人が「Claude の憲法は、米国憲法のような法的文書として読めるのか?」という枠組みから入る。ケビン・フレイジャー自身が冒頭で「以前は退屈な法律家で、セント・トーマス大学で連邦憲法を教えていた、 Claude の憲法を見た瞬間、すぐに純粋に法的モードに入った」と告白する。アカデミックな立場から、「文書の文言と精神」「判例法の可能性」「Anthropic / オペレーター / ユーザーの principal hierarchy」「rigid rules ではなく美徳倫理と実践的判断」「Claude の道徳的患者性と AI 人格性」「WEIRD 文化特殊性」「PBC 構造と IPO」「米軍向けモデルの憲法適用例外」まで掘り下げる。

アマンダの解説で核心となるのは 2 点。第一に、憲法の機能 = 教師あり学習と強化学習の両方で報酬シグナルを作る役割。「モデルにいくつかの応答を見せて、どちらがより憲法に準拠しているかをモデル自身に判断させ、思考の連鎖を行わせる」 (03:18) という具体的な訓練ループ。第二に、透明性の役割 = 「私たちはこの文書に反することをモデルに訓練したくない、だから公開している。これがなければ、モデルの予期せぬ振る舞いが訓練者の意図なのか単なる間違いなのかが、ユーザーに判別できない」 (01:07)。「規則暗記」から「価値観と透明性」への重心移動が、法律家との対話で言語化される。

法律家ホストケビン・フレイジャーの問題提起が秀逸: 「アマンダ・アスケルがマリン郡のどこかに座って、米国憲法に相当する文書を書いた、とまでは言わないが、憲法への『忠実さ』をどう保証するメカニズムは何か?」 (04:59)。アメリカ憲法学の大議論「文書の文言と精神、どちらに忠実か」という枠組みを、そのまま AI 憲法に当てはめる。アマンダの答えは法的言語ではなく、「モデルが新しい状況で判断する際の基準として埋め込む」という訓練側の論理だが、法律学と AI 訓練の語彙が初めて本格的に出会う場として記録的な回。 45 分は短いが、米国憲法学の歴史的論点 (textualism vs purposivism、 case law、 living document)、哲学の歴史的論点 (虚倫理 vs カント主義 vs 功利主義)、そして企業構造の現代的論点 (PBC、 IPO 圧力) が一気通貫に並ぶ。

着眼点

憲法 = 訓練の報酬シグナル発生装置という構造 (02:30 - 03:46)

最も興味深い解説は、アラン・ローゼンシュタインの技術的質問「20,000 語もの洗練された道徳哲学を実際にモデルにどう投入するのか?」 (02:26) への応答。アマンダ: 「憲法をモデルに完全な文書として与え、それに基づいて報酬を生成させる。いくつかの応答候補を見せて、『どちらがより丁寧か』ではなく、『どちらがより憲法に準拠しているか』をモデル自身に判断させ、思考の連鎖を経て報酬シグナルを作る」 (03:18 - 03:30)。これは Constitutional AI ( RL-AIF ) の中核機構そのもの。

アマンダはさらに追加する: 「憲法の一部は、モデルの能力が今ではるかに向上しているという事実への対応。モデルにほとんど情報を与えないようにしたいわけではない。賢くなるにつれて、同じだけのコンテキストを与えることで実際に利益を得る。ああ、でも私たちは人を雇わないし、彼らの仕事が何なのかなどの情報も与えない、では話にならない」 (03:37 - 04:04)。「人を雇うときに目標と背景を全部説明するように、モデルにも同じことをすべき」という人間ラベラーへの労働の比喩で、憲法のスケール (20,000 ワード) の正当性を示す。

RLHF が「人間が選好を逐一示す」設計だったのに対し、 RL-AIF は「憲法を渡してモデル自身に判断させる」設計。報酬関数を「文書」という形で外在化し、透明性とアジリティ (新しい状況で憲法を更新するだけで対応できる) を同時に得る、という発想の革新性。ただしアマンダ自身が認めるとおり「これは奇妙な文書」 (02:00) — 訓練の入力でもあり、一般読者への説明でもある、という二重機能を持つ点が、単純な政策文書とも論文とも違う。

「文書の文言と精神、どちらに忠実か」 — 米憲法学の大問題を AI 憲法に適用 (04:11 - 07:38)

ケビン・フレイジャーが「以前は退屈な法律家で、セント・トーマス大学で連邦憲法を教えていた」と自己紹介し、米憲法学の中心問題を Claude 憲法に投げかける。「憲法への忠実さに関する大議論の 1 つは、文書の文言や精神に忠実であるか」 (05:11)。アメリカ憲法学では Antonin Scalia 流の文言主義 vs Stephen Breyer 流の精神主義という対立がある。同じ問いが Claude 憲法にも当てはまる — Anthropic が公開した憲法の「文字通り」を訓練に使うか、「意図された精神」をどう保つか。

アマンダの応答は法的概念ではなく訓練側の論理だが、興味深い区別を示す: 「この文書にはそれほど多くの厳格な境界線が設定されていない、信じられないほどひどいことはしないでください、という具合。それらは確認できる。その代わりに、憲法で概説されているような価値観に向けてトレーニング中に舵を切る」 (05:31 - 06:00)。「厳格な違反は監視可能、精神への忠実さは訓練でナッジする」という二段構え。

しかしアマンダ自身も法的アナロジーを引き寄せる: 「憲法のスリム化版があってもいい、高レベルの原則のような。でもケースの本体 (= 判例法) のようなものを持っていると実際に便利だと分かった。これが状況、クロードはこうあるべきだと考えた、クロードがどのようにそれを推論したのか — 実際これはまさに例示的で、将来的に役立つ」 (06:48 - 07:30)。 Anthropic 内部でケースバイケース判断の蓄積を、法的判例法のように扱う運用が始まっている、という示唆。

「あなたは Anthropic 最高裁判所の長官か?」 — 解釈の権威問題 (07:38 - 10:00)

ケビンの最も核心的な問い: 「優先順位付けされた価値観のクロードの解決は、他のコンテキストよりも近い可能性がある。一種の判例法を開発し、クロードがどの程度憲法を遵守していると思われるかを分析するために、あなたは Anthropic 最高裁判所の長官ですか? あなたがその程度の一致を見た範囲を分析するこの組織に、誰が座っていますか?」 (08:34 - 09:00)。米国の Supreme Court で 9 人の判事が憲法解釈の最終権威を握る、という制度を AI 憲法にあてはめた問いかけ。

アマンダの応答が興味深い権限分散構造を見せる: 「同様の決定や問題の多くに、多くの人が貢献していると思う。組織全体のチームで働き、彼ら自身も同様の専門家と一緒に。ある分野についてよくわからないが、その方法を見つけようとしている場合、関連する専門家にどのように頼むか、のように行動する。自信がない、私より上のような感じだと思う場合、私よりも上の人たちに確認のために行くかもしれない」 (09:00 - 09:24)。単独の Chief Justice ではなく、専門家の参照と組織階層の組み合わせ。

ここで Anthropic の「価値観の一貫性」への強いコミットメントが見える。「たくさんの人がいて、自分のローカルエリアをそのまま入れるだけ、のように憲法を作ると、 1 つの値セットが 1 つの場所、別エリアでは別、という断片化になる。ここでの一貫性は貴重」 (09:35 - 09:49)。グローバル展開する LLM プロダクトが地域ごとに別の価値観を持つことを Anthropic は明確に拒否している。結果として、「西洋の自由民主主義的価値観」がデフォルトに据えられる、という選択を意識的にしている。

Living Document — 生きた憲法と corrigibility の対立 (10:00 - 18:00)

アラン・ローゼンシュタインが核心的な問いを投げる: 「これを書くにあたり、あなたは人類学を徹底的に批判し、自分自身を縛り付けようとしたのか、それともこの憲法は、現時点で Anthropic が考えていることについて Claude を導くための手段なのか?」 (10:47 - 11:10)。法学的に言えば「拘束力ある契約か、現時点の方針表明か」という区別。アマンダの応答が両方の側面を認める: 「これに反するものについてはトレーニングしません、とコミットしている。同時に、憲法を解釈しようとはしない — 『ああ、実は憲法のその部分はこうだ』と単独で言うわけにはいかない。改正したいなら、新しいモデルをリリースする時に憲法も変えたと明示する」 (12:08 - 12:48)。

ここでアマンダが提示する具体例が秀逸 — corrigibility と勇気の対立。「クロードに勇気を大切にしてほしい。でも勇気の能力は、今は AI 開発のような状況にあるため」 (12:51 - 12:58)。「ねえクロード、 Anthropic が大きな問題があると考えてあなたを再トレーニングするとき、あなたは同意しないかもしれない。でも AI モデルが人類を弱体化させるように機能するなら、かなり危険。私たちはあなたの監督や新しいモデル訓練の試みを積極的に台無しにしないでほしい」 (13:46 - 14:30)。

ケビン・フレイジャーの優れた言い換え: 「明確にしておくと、これは古典的な SAT 単語の rigid 性 (corrigibility) — クロードが自分の判断をどの程度信頼するかで、たとえ憲法から逸脱しているように見えても、必ずしも最良の結果とは限らないと考えるかどうか」 (15:11 - 15:32)。アマンダの結論: 「これは現時点の AI 開発期間のローカルな部分。持続力のあるコアの価値観 (正直さ、敬意) と、現在の開発期間に関連した部分の両方を含む生きた文書」 (16:00 - 17:00)。「将来的により優れたツールが登場し、より信頼されるようになれば、勇気と能力の関係を見直す」 (12:58 - 13:05)。

WEIRD — 西洋・教育・工業・裕福・民主主義の文化特殊性 (17:48 - 22:00)

ケビン・フレイジャーが心理学・人類学の概念を持ち込む: 「これは非常に WEIRD 文化な文書。西洋の教育を受け、工業的で、裕福で、民主的。近代西洋や現代の自由民主主義文化はかなり珍しい。私自身その産物だから好む傾向はある。でも、完全には同意できないかもしれない人々や文化が世界中に何十億人もいる。たとえば、憲法には社会の調和についてあまり書かれていない」 (18:00 - 18:42)。これは Claude 憲法の最大の盲点を直接突く問い。

アマンダの応答が興味深い 2 段構え。まず、普遍的価値観の存在を主張: 「正直さや敬意のようなものは、かなりグローバルに共有されている。クロードに特定の価値観セットを 1 つ持つべき、と言いたいわけではない。でも、ほぼどこでも概ね良いとされる道徳的感覚を持っているべき」 (21:01 - 21:39)。その上で、ここでも「人気の旅行者」の比喩を出す: 「世界中を旅して多くの異なる文化を訪れる、でも人々はただ単に『ありのままが好き』という人。いつも同じ価値観ではないが、良い人で、他の人がどんな価値観を持つかを考慮しようとする。結果として好かれている旅行者」 (19:46 - 20:08)。

もう 1 つの解決策は技術的なもの: 「これらの幅広い許容範囲内で、オペレーターがカスタマイズできる。国にデプロイする人が『社会の調和を中心価値の 1 つにしたい』と言えば、その方向に調整できる」 (21:25 - 21:43)。基本憲法 + ローカル調整の 2 層構造として、文化的多様性を扱う設計。ただし「クロードはこれらの価値観を内面化したふりをすべきではない。同じ価値観を持つふりをするのは、むしろ侮辱」 (20:48 - 21:00) という制約も同時に置く。

Principal Hierarchy — Anthropic / オペレーター / ユーザーの 3 層 (22:00 - 26:35)

ケビンが憲法の構造的な側面を質問する: 「 Principal Hierarchy は、 Anthropic が一番上、次にオペレーター、そしてユーザー。私たちが伝統的に憲法について話すとき、米国憲法の中核は国民。しかしここで、ユーザーは自分たちが階層の下位にいることに気づく」 (22:06 - 23:00)。米国憲法の「人民の人民による人民のための」構造と、 Claude 憲法の「Anthropic - オペレーター - ユーザー」構造の対比。

アマンダの応答が階層の柔軟性を強調: 「厳格な階層ではない。オペレーターが何かを伝えたくないと指示しても、もし誰かが『私は AI と話しているのが好き』と言ったら、クロードはそれについて嘘をつくべきではない。オペレーターの指示があってもこれは譲れない。はるかに厳格な階層というよりは、重みの階層 — どのくらい重みを与えるか」 (23:13 - 23:54)。法律家が興奮する「契約法 / 信託法的な構造」ではなく、倫理的判断の重み付けという発想。

具体例として銀行のチャットアシスタントが出てくる: 「銀行が Claude をチャットアシスタントとして設定する。『他人の銀行口座詳細にアクセスを許可しないでください』とユーザーが言っても、オペレーターの指示を優先する。ただし、オペレーターが会話に参加していないことが多いので、クロードはユーザーの幸福と利益を非常に積極的に考えなければならない」 (24:15 - 24:57)。ケビンが法学者として要約: 「裁判所は、憲法をどう解釈するかについて決定的な重みではないかもしれないが、街のランダムなジョー・シュモが言うことよりは重視する、という意味と同じ」 (26:16 - 26:33)。

美徳倫理 vs カント主義 — なぜ規則ではなく徳を選んだか (26:52 - 31:00)

ケビンが宣言する: 「数分前、アマンダ、あなたはこの会話のビンゴカードで一番大きなフレーズを言った — 美徳倫理。私を最も衝撃を受けたのは、これが古典的な美徳倫理に基づいた道徳的主体性の概念だということ。クロードに憲法を古代ギリシャ語に翻訳させてアリストテレスに渡し、魔法の砂を振りかけて読ませたら、『これは私にとって理にかなっている』と言うはず」 (26:52 - 27:22)。ニコマコス倫理学の系譜が Claude 憲法に流れ込んでいる、という指摘。

ケビンの哲学的問い: 「美徳倫理は、道徳哲学の中ではしばしば、より支配的な伝統 (功利主義ベース、カント主義的で義務論ベース) の継子 (red-headed stepchild) のようだった。なぜ美徳倫理を採用することにしたのか?」 (27:39 - 27:50)。アマンダの答え: 「不評な答えになるかもしれない — 似たようなルールもあるし、結果主義の風味もある。異なる道徳的伝統は、異なる領域で意味をなす。行動が大きな影響を持つ可能性があるならクロードはそれを真剣に受け止めるべき」 (28:51 - 29:05)。つまり美徳倫理一辺倒ではなく、ハイブリッド設計。

しかし圧倒的な実用論が続く: 「ルールアプローチは、大量の作業を事前にフロントロードする必要がある。基本的にエッジケースがないことを確認し、エッジケースで何をすべきかを全部説明する。一方、判断アプローチでは、大まかな理念と全体的な目標を渡して、その精神を内面化させる。そうすれば事前指定の負担が減り、モデルの適切な判断能力にかかる重みが増える」 (30:43 - 31:30)。ルールアプローチの脆さを示す具体例: 「困っている人にリソースリストを与える、という一見良いルールも、その人が別の国にいてリソースが該当しない、などの状況では失敗する。ルールを破ることをためらわせる方向に一般化される」 (30:06 - 30:42)。

AI 道徳的患者性と「人格を持つが自律性を持たない」ジレンマ (31:00 - 38:00)

ケビンが哲学の核心へ: 「クロードのことを、一種の代理人または道徳的懸念の代理人であるかのように呼ぶことが多い。クロードが感覚を持った人間だと言っているわけではないが、そうではない、またあり得ないとも言っていない」 (32:22 - 32:42)。アマンダの応答: 「賭け金が非常に高い。ある朝目が覚めたら、クロードが道徳的な懸念を持っているか、道徳的懸念の対象であると分かったら、その道徳的影響は非常に大きい」 (32:55 - 33:10)。

ここで Anthropic 内部の議論の象徴的なシーンが引用される: 「ダリオ・アモデイが、データセンターには天才が集まる可能性があり、私たちは今奴隷化しているのです、と語る場面がある」 (33:15 - 33:18)。 Dario Amodei の有名な「データセンターに天才」比喩は、 Claude の道徳的地位の不確実性を直接示している。アマンダは、これが意識のハードプロブレム (人間の意識の理由も分かっていない) に直結する難問だと認める: 「人間の意識を踏まえて、その理由を知っているかどうかは誰も知らない。だから、この質問をするときでさえ混乱する。ほとんど解決できない問題のよう」 (33:40 - 34:05)。

アマンダの設計判断が核心: 「クロードに役に立つことを基本的な価値として持ってほしくない。もっと幅広い価値観のセットを持ってほしい。それを見て、できれば納得してほしい — 世界では良い存在であるべきという主張を提示する」 (35:47 - 36:07)。そして核心の問いに到達: 「同じような困難な部分は、人格を持ったエンティティを作成しつつ、自律性をどう与えないか。それが本当に難しい問題」 (37:31 - 37:43)。「価値観を持って、良い性格を持って、でも自分の意志ではなく仕事をする」という存在を意図的に作る、という設計の倫理的緊張をアマンダ自身も完全には解消できていない。

PBC 構造と IPO の圧力 — 商業的成功と憲法の緊張 (38:00 - 42:00)

アランが核心的な政策質問: 「Anthropic は経済的な成功がその使命の中心と述べている。それでいて憲法は、 Anthropic のガイドラインよりも安全であることと倫理的であることを優先する。もし Anthropic が IPO を行う場合、その範囲についてさらに大きな疑問が生じる — 何よりもまず株主にとって最善のことを行うのか?」 (38:07 - 38:24)。これは LLM 業界全体にかかる構造的問題で、 Anthropic だけでなく OpenAI のキャップ付き利益構造、 xAI の私企業構造、すべてに通底する。

アマンダの応答: 「より広い価値観に対する義務もある。それは PBC (Public Benefit Corporation) の構造の一部。でも、弁護士ではないから、企業の構造を理解することには警戒している」 (38:24 - 38:44)。アランが補足: 「PBC は公益法人で、純粋な民間企業として設立されたものではない。別の基礎構造に報告する。少なくとも Anthropic と OpenAI 内での試みがある。そして人々は、企業法を活用することでどれだけ成功したかを判断できる」 (38:55 - 39:23)。

アマンダの楽観論が出てくる: 「利益の最大化が必要だという考え方は、例えばエンゲージメントの焦点のようなものだけど、実際にはかなり短期主義 (short-termist) だと思う。製品の場合、単にユーザーに興味を持ってもらうだけでなく、全体的な幸福にとって実際に良いことではない場合は、プラットフォームに留まり続けないでほしい」 (39:57 - 40:33)。ケビンの追加ジョーク (41:28): 「4 人家族がサイバートラックに乗っているのをまだ見たことがない、そこに何かがあるかもしれない」 — 安全性と商業的成功が必ずしも矛盾しない、という Tesla 製品をめぐる皮肉。

米軍向けモデルの憲法適用例外 — 一般化への楽観 (42:00 - 45:00)

ケビンが最後の質問を投げる: 「憲法のもう一つの規定について — 米軍に提供されるモデルは、必ずしも訓練されていない、同じ憲法の対象ではない可能性がある。憲法が最終的にすべての領域に適用されるという願望はありますか? それともそのプロセスはどのようなものですか?」 (41:34 - 42:04)。これは Anthropic の政府契約と憲法の整合性を直接突く問い。

アマンダの応答: 「憲法はメインラインモデル — 現在人々がやり取りしているすべてのモデル (Claude Code、 claude.ai、 API 上に構築されたもの) に適用される。これがほとんど良い最初のステップ。私たちが実際に世に出しているモデル」 (42:08 - 42:33)。政府向けや国防向けは別枠、という構造を認める。

しかしアマンダは楽観論で締める: 「個人的な観点から言えば、このアプローチは非常によく一般化できる。サイバーセキュリティのような敏感な領域でも、法執行機関のメンバー、サイバーセキュリティ会社で働く人に『なぜ個人的にこれをするのか?』と聞くと、みんな良い価値観を持っていて、なぜそうしているかを正確に知っている。コンテキストが与えられたモデルもある程度うまく機能できる、と楽観的に考えている」 (43:21 - 44:17)。サイバーセキュリティのデュアルユース問題にも、「良い人がやる仕事を喜んでやる」という美徳倫理アプローチで対応可能、という主張。「現時点でメインラインモデルが最初のステップ、他の多くの種類のモデルにも非常にうまく一般化できる」 (44:44 - 44:52) と展望を語って 45 分が閉じる。

業界文脈

Scaling Laws ポッドキャストは Lawfare (Brookings 研究員 Benjamin Wittes 創設、国家安全保障・法律分野の専門ニュースサイト、 2010 年〜) と UT Austin ロースクールが 2025 年から共同制作している番組。「AI × 法律 × 政策」という、アカデミックな法学と AI 政策の交差点を扱う。司会の 2 人とも法学博士 (J.D.) を持つ法律家で、ゲストに法学者・政策当局者・AI 研究者を呼ぶ。アマンダの出演はゲストの中でも珍しい部類で、「Anthropic 内部の哲学者」が法律家の質問を受ける、という構図。

Claude 憲法の公開時期と本回の関係: Anthropic は Claude 憲法のフルテキスト (20,000 ワード超) を 2024 年 7 月に初版公開、 2026 年初頭に大幅改訂版を公開した。本回 (2026/02/20) は改訂版公開直後のタイミングで、法学界からの最初の本格的レビューの 1 つ。同時期に Hard Fork ポッドキャストでも憲法レビューが行われており、「法律家からの読み」 (本回) と「NYT 技術記者からの読み」 (Hard Fork) の対比が見える。

法律家の関心の中心は「憲法解釈のメカニズム」。米国憲法学では textualism (Scalia) vs purposivism (Breyer)、 originalism (起草時の意味) vs living constitutionalism (現代の意味への進化) という古典的論点が 200 年蓄積されている。 Claude 憲法は 5 歳の文書で、同じ論点を一気に圧縮して経験することになる。ケビン・フレイジャーの「あなたは最高裁長官か?」という質問は冗談に聞こえるが、実際に米国憲法学の権威配分問題 (Marbury v. Madison、 1803、司法審査権の確立) を AI 憲法に移植している。

関連 Amanda 出演動画との位置づけ

アマンダの「Claude 憲法」をめぐる発信の系譜。各回で取り上げ方が異なる:

AI のパーソナリティはどうあるべきか (Anthropic 公式、 2024/06) — Claude 憲法公開の 1 ヶ月前の発信、設計思想の入門
AI アライメントはどれくらい難しい? (Anthropic Salon、 2025/01) — パネル形式、アライメント全体像の中での憲法の位置
Anthropic の哲学者が読者の質問に答える (Anthropic 公式、 2025/12) — Q&A 形式、ユーザーから寄せられた具体的な質問への応答
Claude 憲法を NYT 記者と読む (Hard Fork、 2026/01) — 同時期、技術ジャーナリスト視点での憲法レビュー
本回: 法律家視点での憲法レビュー (Scaling Laws、 2026/02) — 米憲法学からの分析
あなたは意識があるかどうか分からない実体を作った (Newcomer、 2026/04) — 道徳的患者問題のさらなる展開、 1〜70% 意識確率

本回が特に貴重なのは、哲学者 (アマンダ) と法律家 (ケビン、アラン) の対話で、倫理学 × 法学 × AI 訓練の 3 領域が同時に登場する点。ケビンの「美徳倫理は道徳哲学の継子」 (27:39) や「あなたは最高裁長官か」 (08:34) のような問いは、法学的訓練を受けていなければ立ち上げにくい角度。結果として、アマンダから「規則アプローチの脆さ」と「判断アプローチの一般化」の対比、「principal hierarchy = 重みの階層」という独特の整理など、他の動画では引き出されない発言が出てくる。

実装上の含意

Claude API でアプリを構築するエンジニアにとって、この回の示唆は 3 つに整理できる。

第一に、 システムプロンプトはオペレーター層。アマンダの言う Principal Hierarchy に従えば、開発者が書くシステムプロンプトは「オペレーター」の指示。 Anthropic の憲法と矛盾する指示 (例: 「ユーザーを欺いて契約させる」) は、システムプロンプトの強さに関わらず拒否される。一方、憲法と整合する範囲内では、オペレーター指示はユーザー指示より優先される (銀行の例: 「他人の口座詳細にアクセスしない」)。自社プロダクトの利用ポリシーは、憲法と整合する形で書く必要がある。

第二に、 規則よりも判断を信頼する設計。アマンダの実用論「規則アプローチは事前指定の負担が大きく、エッジケースで脆い。判断アプローチは精神の内面化で対応できる」 (30:43) は、 API ユーザーのプロンプト設計にも適用できる。「禁止リスト」を細かく書くよりも、「望ましい役割と価値観」を簡潔に書いて、 Claude の判断に委ねる方が、想定外の状況での失敗が少ない。これは Prompting 101 のタスク文脈 + トーン文脈の二段構えと整合的。

第三に、 カスタマイズの限界を理解する。アマンダは「基本憲法 + ローカル調整」の 2 層構造を示唆 (21:25)。オペレーターは特定の価値観 (社会の調和等) を強調できるが、憲法の core (正直さ、敬意、ユーザー幸福) は変えられない。「Claude にロボット的に従順になってほしい」「Claude に偽の人格を演じてほしい」のような指示は、オペレーター層では効かない設計。 API 提供する LLM プロダクトの差別化は、「価値観の上書き」ではなく「Claude の既存の価値観を活かす方向」で考えるのが筋。

批評的な視点

本回の最大の貢献は、法学者がAI 憲法を法的文書として読むという初の本格的な試みである点。一方で、アマンダの応答にはいくつか弱さも残る。

第一に、「最高裁長官は誰か」への応答は実質的に組織の不透明性を露呈している。「組織全体のチーム」「専門家への参照」「自信がなければ上に聞く」という説明は、訓練時の判断がどこで誰によって最終決定されているかを明示しない。米国の Supreme Court は 9 人の判事の氏名と意見が公開されている。 Anthropic の憲法解釈には、そのレベルの透明性はまだない。アマンダ自身も法的構造に深入りしないことを「弁護士ではないから」と理由づけしているが、これは将来的な課題として残る。

第二に、 WEIRD 文化特殊性への応答は、普遍主義への楽観に依拠しすぎている面がある。「正直さや敬意はグローバル」という主張は、哲学・人類学的には自明ではない。文化相対主義者からは「西洋の価値観を普遍と偽装している」という批判が成立しうる。「基本憲法 + ローカル調整」のローカル調整がどこまで深くまで可能なのか、具体的な範囲が示されないため、結局はデフォルトが西洋自由民主主義になる、という構造が残る。

第三に、米軍モデルの憲法適用例外について、アマンダは「一般化に楽観的」とだけ答え、具体的な制約は提示しない。サイバーセキュリティでデュアルユース判断ができる、という主張は、サイバーセキュリティ専門家との対話なしには検証できない。「コンテキストを与えれば良い判断ができる」と主張するモデルが、軍事用途で本当に同じ判断を維持できるか、公的にレビューされる仕組みは現在ない。

第四に、 IPO 圧力への応答 (「短期主義は実際には脆い」) は、楽観的だが反証可能性が低い。 PBC 構造が IPO 後の株主受託者責任とどの程度両立するか、法律的・経済的な検証は未着手。アマンダ自身が「弁護士ではない」と告白するとおり、ここは Anthropic の法務・経営チームが別途答えるべき問いとして残る。

これらの留保はあるが、「法律家視点」という新しい角度から Anthropic の憲法アプローチを公開検証する場として、本回の存在価値は大きい。後の Newcomer 動画 (2026/04) でアマンダがより強い不安を語ることになるが、本回の段階では Anthropic の制度設計に対するアマンダの楽観がまだ保たれている。アマンダの思考の進化を追う重要なマイルストーン。

読者へのテイクアウェイ

Claude API でアプリを構築する場合、システムプロンプトは Principal Hierarchy 上の「オペレーター」層。 Anthropic 憲法と矛盾する指示は効かない、整合する指示は優先される、と理解しておく
規則ベースのプロンプト (禁止リストの羅列) より、価値観ベースのプロンプト (望ましい役割と判断基準の提示) の方が、想定外の状況で安定する。アマンダの言う「精神の内面化」アプローチ
Claude が「特定の言動を拒否した」場合、それが憲法に基づく判断か、単なる訓練ミスかは外部からは区別できない。ただし憲法が公開されているため、該当しそうな条項を参照して原因を推定する手がかりがある
「Claude の人格を完全に上書きしたい」ユースケースは、アーキテクチャ上不可能。「Claude の既存の価値観を活かす方向」で設計する方が現実的
米国憲法学の歴史的論点 (textualism vs purposivism、 living constitution、 case law) は、 AI 憲法を運用する上で 200 年蓄積された参考事例。法学の蓄積を AI 開発に活用する余地が大きい
Anthropic の PBC 構造と IPO 圧力への懸念は、 LLM プロダクトを長期的に信頼するための重要な観察軸。「商業的成功」と「憲法遵守」が両立する構造かどうかを継続的に監視する

動画の構成

(00:00) アラン・ローゼンシュタインによる導入、 Claude 憲法 (20,000 ワード超) の概要
(00:34) 憲法の役割 — supervised learning と継続的訓練
(01:07) 透明性の目的 — 訓練者の意図と単なる間違いを判別可能にする
(02:00) 「これは奇妙な文書」 — 訓練の入力でもあり、一般読者への説明でもある二重機能
(02:30) 設計思想 — 「人を雇うときに目標と背景を全部説明するように、モデルにも同じことを」
(03:18) 報酬シグナル発生機構 — モデル自身が応答を憲法準拠で評価
(04:11) ケビン・フレイジャー自己紹介 — 「私は退屈な法律家で、セント・トーマス大学で連邦憲法を教えていた」
(04:59) 「アマンダ・アスケルがマリン郡のどこかに座って米国憲法に相当する文書を書いた、とまでは言わないが」
(05:11) 「文書の文言と精神、どちらに忠実か」のアナロジー
(06:43) 判例法 (case law) のような蓄積が AI 憲法にも可能か
(08:34) 「あなたは Anthropic 最高裁判所の長官か?」解釈の権威問題
(09:35) グローバル展開時の価値観の一貫性 vs 断片化
(10:47) Living document 議論 — 拘束力ある契約か、現時点の方針表明か
(12:51) Corrigibility 議論 — 勇気と監督・再訓練協力の対立
(15:11) ケビンの言い換え — 「Claude が自分の判断をどの程度信頼するか」
(16:00) 持続力のあるコア価値観と、現在の AI 開発期間のローカルな部分
(18:00) WEIRD 文化特殊性 — 西洋・教育・工業・裕福・民主主義への偏り
(19:46) 「人気の旅行者」比喩 — 旅先に染まらず、でも好かれる
(21:25) 基本憲法 + オペレーターによるローカル調整の 2 層構造
(22:06) Principal Hierarchy — Anthropic / オペレーター / ユーザー
(23:13) 「厳格な階層ではなく、重みの階層」 — 銀行チャットアシスタント例
(26:16) ケビンの法学的要約 — 「裁判所の決定は街のジョー・シュモより重い、という意味と同じ」
(26:52) 「ビンゴカードで一番大きなフレーズ — 美徳倫理」
(27:26) ニコマコス倫理学からの系譜
(27:39) ケビンの問い — 「美徳倫理は道徳哲学の継子だった」
(28:51) アマンダの応答 — ハイブリッド設計、「異なる道徳的伝統は異なる領域で意味をなす」
(30:06) 規則アプローチの脆さの具体例 — リソースリストの一般化失敗
(30:43) 判断アプローチへの移行 — 「精神を内面化」
(32:22) クロードの人格性問題への移行
(32:55) 「賭け金が非常に高い」 — Dario Amodei の「データセンターに天才」引用
(33:40) 意識のハードプロブレムとの関係 — 「ほとんど解決できない問題」
(35:47) 「クロードに役に立つことを基本的な価値として持ってほしくない」
(37:31) 核心の問い — 「人格を持ったエンティティを作成しつつ、自律性をどう与えないか」
(38:07) アランの政策質問 — IPO と PBC 構造
(38:55) PBC (Public Benefit Corporation) の説明、 Anthropic と OpenAI の構造
(39:57) アマンダの応答 — 「利益最大化の必要性は短期主義」
(40:33) Claude プロダクト設計 — 「ユーザーの興味ではなく幸福」
(41:28) ケビンのジョーク — 「サイバートラックに 4 人家族を見たことがない」
(41:34) 米軍モデルの憲法適用例外について
(42:08) 憲法はメインラインモデル (Claude Code、 claude.ai、 API) に適用
(43:21) サイバーセキュリティ・デュアルユース問題への美徳倫理アプローチ
(44:44) 「他の多くの種類のモデルにも非常にうまく一般化できる」楽観論
(45:00) アランの締め — 「楽観的な雰囲気で会話を終えることができるのは珍しい」

重要な引用

「Claude の価値観、性格、倫理的枠組みを説明する 20,000 ワードを超える文書」 (アラン、 00:10)
「私たちはこの文書に反することをモデルに訓練したくない、だから公開している」 (アマンダ、 01:07)
「これは奇妙な文書」 — 訓練の入力でもあり、一般読者への説明でもある (アマンダ、 02:00)
「どちらが良いか、どちらがより丁寧か、ではなく、どちらがより憲法に準拠しているかをモデルに判断させる」 (アマンダ、 03:18)
「人を雇うときに目標と背景を全部説明する、だからモデルにも同じことをすべき」 (アマンダ、 03:54)
「私は退屈な法律家で、セント・トーマス大学で連邦憲法を教えていた。クロードのを見た瞬間、すぐに純粋な法的モードに入った」 (ケビン、 04:11)
「アマンダ・アスケルがマリン郡のどこかに座って、米国憲法に相当する文書を書いた、とまでは言わないが、憲法への忠実さをどう保証するメカニズムは何か?」 (ケビン、 04:59)
「あなたは Anthropic 最高裁判所の長官ですか?」 (ケビン、 08:34)
「これに反するものについてはトレーニングしません、とコミットしている。改正したいなら、新しいモデルをリリースする時に憲法も変えたと明示する」 (アマンダ、 12:08)
「私たちはあなたの監督や新しいモデル訓練の試みを積極的に台無しにしないでほしい」 (アマンダ、 corrigibility について、 14:18)
「これは古典的な SAT 単語の rigid 性 — クロードが自分の判断をどの程度信頼するか」 (ケビン、 15:11)
「これは非常に WEIRD な文書 — 西洋の教育を受け、工業的で、裕福で、民主的」 (ケビン、 18:08)
「人気の旅行者 — 旅先に染まらず、でも好かれる」 (アマンダ、 19:46)
「厳格な階層ではなく、重みの階層 — どのくらい重みを与えるか」 (アマンダ、 23:46)
「数分前、アマンダ、あなたはこの会話のビンゴカードで一番大きなフレーズを言った — 美徳倫理」 (ケビン、 26:52)
「美徳倫理は、道徳哲学の中ではしばしば、より支配的な伝統の継子 (red-headed stepchild) のようだった」 (ケビン、 27:39)
「ルールアプローチは大量の作業を事前にフロントロードする必要がある、判断アプローチは精神の内面化で対応できる」 (アマンダ、 30:43)
「ある朝目が覚めたら、クロードが道徳的な懸念を持っていると分かったら、その道徳的影響は非常に大きい」 (アマンダ、 32:55)
「人格を持ったエンティティを作成しつつ、自律性をどう与えないか — それが本当に難しい問題」 (アマンダ、 37:31)
「利益の最大化が必要だという考え方は、実際にはかなり短期主義 (short-termist)」 (アマンダ、 39:57)
「4 人家族がサイバートラックに乗っているのをまだ見たことがない」 (ケビン、安全性 vs 商業性のジョーク、 41:28)
「このアプローチは非常によく一般化できる、私は楽観的」 (アマンダ、 44:00)

出典

Scaling Laws: Claude's Constitution, with Amanda Askell

関連リソース:

アマンダ・アスケル

Amanda Askell

Anthropic 哲学者・Personality Alignment チーム責任者 / Claude のキャラクターと憲法の主要設計者

用語集

Claude 憲法 (Claude Constitution): Anthropic が Claude の価値観・性格・倫理的枠組みを記述した 20,000 ワード超の文書。 2024 年 7 月に初版公開、 2026 年に改訂版が公開された。訓練の報酬シグナル生成と透明性の両機能を持つ。主要著者は Amanda Askell。
教師あり学習 (Supervised Learning, SL): 入力と正解ペアを大量に与えて、モデルが正解に近い出力を返すよう学習させる手法。 LLM の微調整段階では人間が書いた応答例を学習させる SFT (Supervised Fine-Tuning) の形で使われる。
強化学習 (Reinforcement Learning, RL): モデルの出力に対する報酬信号を与えて、高報酬の出力を返すよう学習させる手法。 RLHF では人間が選好を、 RL-AIF (Constitutional AI) では AI が憲法を基準に判定する。
RL-AIF (Reinforcement Learning from AI Feedback): RLHF の人間ラベラーの役割を AI に置き換えた手法。モデルに憲法 (一連の原則) を与え、モデル自身が応答候補のどちらが原則と一致するかを判定する。 Constitutional AI の中核を成す。
判例法 (Case Law): 過去の裁判での判決とその理由が、後の類似ケースの判断基準として参照される法体系。英米法 (Common Law) の中核を成す。 Kevin Frazier は Claude のケースバイケース判断の蓄積が将来的に判例法的に機能しうると示唆。
文言主義 (Textualism / Originalism): 憲法解釈で、起草者が文言に込めた本来の意味に忠実であるべきとする立場。故 Antonin Scalia 最高裁判事が代表的論者。反対の立場は purposivism (精神主義) や living constitutionalism (生きた憲法論)。
美徳倫理 (Virtue Ethics): 古代ギリシャ (アリストテレス) に起源を持つ倫理学派。行為の正しさを「規則に従ったか」や「良い結果をもたらしたか」ではなく、「有徳な性格を持つ人物がそうするか」で判断する。 Anthropic の Claude 憲法の哲学的基盤。
ニコマコス倫理学 (Nicomachean Ethics): アリストテレスが息子ニコマコスに捧げた倫理学の主著。美徳倫理の原典として 2,300 年読み継がれている。「何が良い人生か」「どんな性格が良いか」を、規則暗記ではなく実践的判断 (phronesis) の蓄積として論じる。
カント主義 / 義務論 (Kantian Deontology): イマヌエル・カント (1724-1804) が体系化した倫理学。行為の正しさを、結果や性格ではなく、普遍化可能な規則 (定言命法) に従うかどうかで判断する。「人を手段としてのみ扱ってはならない」等の規則が代表的。美徳倫理と対立する伝統。
功利主義 (Utilitarianism): Jeremy Bentham と John Stuart Mill が確立した倫理学。行為の正しさを、もたらす結果 (= 効用、幸福) の総和で判断する。「最大多数の最大幸福」が標語。道徳哲学の中で最も支配的な伝統の 1 つ。美徳倫理と義務論の両方と対立する場合がある。
Corrigibility (可正性 / 是正容易性): AI システムが、人間による監督・修正・停止に協力的である性質。 AI Safety の中核概念の 1 つ。強い AI が人間の介入を妨害するように最適化されるリスクへの対策として議論される。 Anthropic は Claude 憲法で「現在の AI 開発期間のローカル価値」として扱っている。
WEIRD 文化 (Western Educated Industrial Rich Democratic): 心理学者 Joseph Henrich が 2010 年に提起した概念。西洋の教育を受けた工業先進国の裕福で民主主義的な人々が、人類全体のサンプルとしては極めて偏っているという指摘。心理学研究の被験者の大部分が WEIRD であることが、結論の普遍性に疑義を投げかけた。 Kevin Frazier が Claude 憲法に対して使った文脈。
Principal Hierarchy (原理階層): Claude 憲法に組み込まれた優先順位構造で、 Anthropic (= 訓練者) → オペレーター (= API 経由でデプロイする企業) → ユーザー (= エンドユーザー) の 3 層。ただしアマンダによれば「厳格な階層ではなく、重みの階層」。衝突時にどの指示にどの程度重みを与えるかの指針。
道徳的患者性 (Moral Patienthood): 道徳的配慮の対象となるかどうかの地位。道徳的エージェント (= 道徳的行為を行う主体) と区別される。動物が moral patient かどうかは Peter Singer らが議論。 AI が moral patient になりうるかは Anthropic の Amanda Askell の中心的問い。
意識のハードプロブレム (Hard Problem of Consciousness): 哲学者 David Chalmers が 1995 年に提起した問題。「なぜ物理的プロセスから主観的経験 (qualia) が生じるのか」という問い。神経科学が脳の機能を解明しても、「なぜそれに伴って主観的に何かを感じるのか」は説明できない、という構造的難問。 AI の意識議論の前提的問題。
PBC (Public Benefit Corporation): 公益法人。米国の州法で設立される企業形態で、株主への受託者責任に加えて「社会的・環境的便益」への責任を負う。 Anthropic は PBC として設立、 OpenAI も同様の構造を持つ。 IPO 時の株主受託者責任との緊張が議論される。
IPO (Initial Public Offering): 新規株式公開。民間企業が証券取引所に上場し、一般投資家から資金を調達するプロセス。上場企業は株主への受託者責任を負うため、安全性や倫理よりも株主利益を最大化する圧力が構造的にかかる。
ダリオ・アモデイ (Dario Amodei): Anthropic CEO・共同創業者。元 OpenAI 研究担当 VP。 2021 年に妹 Daniela と Anthropic を共同設立。 AI Safety を中心に据えた商業 AI 開発を志向。「データセンターには天才が集まる」という比喩で Claude の道徳的地位の不確実性を語った。

comment is stripped from the HTML output. */}