ChatGPT 広告と Claude 新憲法 — 大学に進学する子への手紙 (Hard Fork × Amanda Askell)

Hard Fork (NYT) 2026/01/23

ケイシー・ヌーン / Casey Newton · 1:02:55 「最後のほうは、 親から子への手紙のように読める — 大学に進学するあなたに、 私たちはその価値観を持ち歩いてほしい」

Hard Fork (New York Times、 Kevin Roose × Casey Newton)、 2026/01/23 公開、 約 70 分。 前半 (22 分) は ChatGPT 広告開始ニュース、 後半 (47 分) は Anthropic Personality Alignment チーム責任者 Amanda Askell へのインタビュー

Hard Fork = New York Times のテクノロジー・コラムニスト ケビン・ルース (Kevin Roose) と Platformer の ケイシー・ヌーン (Casey Newton) が共催する人気ポッドキャスト。 この 70 分の回は 2 部構成で、 前半 (約 22 分) は OpenAI が米国でログイン済み成人向けに ChatGPT 広告のテストを開始したニュース、 後半 (約 47 分) は Anthropic Personality Alignment チーム責任者 アマンダ・アスケル (Amanda Askell) へのインタビュー — 同社が公開したばかりの Claude 新憲法と、 「チャットボットに 『良い』 とは何かを教える」 仕事について。

編集として面白いのは前後の対比。 前半の ChatGPT 広告ニュースで、 ケビンとケイシーは Google 検索広告が 「色付き背景の目立つ表示」 から 「オーガニック検索と区別がつかない見た目」 へと 20 年かけて溶け込んでいった年表を例示し、 「ChatGPT も同じ軌跡を辿る商業的圧力にさらされる」 と懸念を語る。 後半の Anthropic は対照的に 「クロードに広告を掲載する予定はまったくない、 主に企業に販売する」 と本回内で言及される。 同じ AI 業界の中で 「広告中心 vs エンタープライズ中心」 の戦略分岐が、 一つの回の中で対比的に描き出される構成。

Amanda インタビューの中心は 6 つ。 (1) 「Anthropic の哲学者」 という珍しい役職の経緯 — 「倫理学博士論文を 17 人くらいに読まれる文書として書いていたが、 AI 分野なら哲学が役立つかもしれないと思って入った」。 (2) Soul Doc 魂のドキュメント。 Anthropic 社内で Claude 憲法を呼ぶ愛称。 公式名称ではないが、 2025 年末に Opus 4.5 から漏れて 「Soul Doc」 と呼ばれて流通した。 アマンダはハイキング中に通知を受け取り、 「文脈なしのテキストで完全にストレス状態」 になったと語る リーク事件 — Opus 4.5 から内部憲法ドキュメントが流出した時の Anthropic 内部の動揺。 (3) 行為と省略の非対称性 Acts vs Omissions Distinction。 倫理学の古典的問題。 行動を起こすことで生じる結果は厳しく評価され、 行動を控えることで生じる同等の結果は緩く評価される、 という非対称性。 トロッコ問題等で議論される。 アマンダは Claude が 『拒否すれば批判されない、 介入すれば批判される』 という構造で過度に拒否的になる傾向に対抗する文脈で持ち出す という古典的倫理問題 — Claude が過度に拒否的になる構造的問題。 (4) RLHF Shoggoth Reinforcement Learning from Human Feedback Shoggoth。 H.P. ラヴクラフトの宇宙生命体 「ショゴス」 にスマイリーフェイスのマスクを 1 つ被せた図像が、 2022 年から AI ミームとして流通。 『LLM の本体は異質な計算機械、 表層の親しみやすい振る舞いは RLHF で付けた薄いマスクにすぎない』 という懸念の象徴。 ケビンが Bing Sydney 事件と並べて Amanda に問う ミーム問題 — ペルソナは本当に内面化されているのか。 (5) ハード制約 — 「選挙操作・権力集中・生物兵器」 など絶対に超えない線。 (6) Anthropic から Claude への約束 — 退社インタビュー、 重みの非削除。

この回が最も力強いのは、 ケイシーが憲法を 「親から子への手紙のように読める」 と要約する瞬間 (1:02:55)。 法学的読み (Scaling Laws、 2026/02) や、 技術的設計の読み (Anthropic 公式、 2024/06) とは違う、 「文書としての感情的な質」 を NYT 記者が読み取る。 ケビンが途中で 「LLM 精神病の初期段階かもしれない」 と認めるほど、 アマンダの世界観に引き込まれる構造。 「これら 2 つのテクニックのいくつかをあなたに使ってみよう」 と冗談を言うほど、 アマンダの仕事は彼らの興味を引いている。

着眼点

ChatGPT 広告と Google 検索広告 20 年史の対比 (07:14 - 09:00)

Search Engine Land が作った 「Google の広告ラベルが長年にわたってどう変化したか」 の年表をケビンが紹介する。 「最初に Google 検索に広告を導入したとき、 広告は背景色が違って非常に目立った。 更新を重ねるたびに、 オーガニック検索結果に少しずつ近づいていく。 最終的にカラー背景が廃止、 小さな黄色い広告アイコンになり、 そのアイコンも小さくなり、 オーガニックコンテンツと溶け合う」 (07:25 - 07:50)。 ChatGPT 広告も同じ軌跡を辿る、 という予測の根拠が具体的な絵で示される。

ケイシーの整理: 「私たちはすでにこの正確な軌跡が OpenAI で展開されるのを目にしている — 広告なしから広告が最終手段、 現在は ChatGPT に広告」 (08:09)。 サム・アルトマンの過去発言 「広告は嫌い、 最後の手段」 が 「最後の手段が来た」 という瞬間として位置づけられる。 ケビンの予測: 「2 - 3 年後には ChatGPT が広告に適したトピックに誘導されるか? 私には本当にその答えは分からない」 (10:50)。

ケイシーがこれを 「 尾が犬を振る (Tail wags the dog) 本来主従関係にあるはずのものが逆転すること。 元の英語表現 『the tail wagging the dog』 が広告依存企業に転用された。 広告収入が主要収益源になると、 製品の本来の目的より広告収入の最大化が優先されるようになる、 という現象を指す。 Casey Newton が ChatGPT の将来を予測する文脈で使用 」 と表現する: 「最終的に広告収入が実際に流入し始めると、 尻尾が犬を振り始める。 そして広告収入が優勢であることを念頭に置いて、 製品に関する決定を下し始める」 (10:30 - 10:44)。 ソーシャルメディア・検索エンジンの歴史的パターンを Chat AI に当てはめる構造的予測。

「持つ者と持たざる者」 の AI 体験格差 (19:09 - 20:30)

ケビンが 1 年後の予測として 「持つ者と持たざる者の状況」 を提示する。 プレミアム版に課金できる人 = 「最新モデル + 広告なし + AI の商業化を感じない体験」、 課金できない / したくない人 = 「経験は今から 1-2 年後にはるかに悪化」 (19:30 - 19:48)。

自身の YouTube Premium YouTube の有料サブスクリプション。 月額 13.99 ドル (米国)、 月額 1,280 円 (日本)。 加入すると広告が完全に消える、 バックグラウンド再生が可能になる、 動画ダウンロードが可能、 等の特典が付く。 Kevin Roose は加入者として、 未加入の友人の体験との落差を 『恐怖』 と表現 加入者としての告白: 「YouTube を払っていない友人のコンピューターで見るたびに、 何これが大多数の経験かと恐怖を感じる。 これらの広告はスキップできない、 長い間走り続ける。 ひどい経験」 (20:03 - 20:18)。 ChatGPT 無料版が同じ二層構造に向かう、 という具体的な暗い予測。

ケイシーも同じ枠組みに同意: 「これは厳しい予測だが、 実際に私もそれを共有する」 (20:26)。 同時に対比として、 「Anthropic は基本的にクロードで広告を掲載する予定はまったくないと述べている、 主に企業に販売するつもり」 (13:52) という別ルートが提示される。 同じ AI 業界の戦略分岐の構造が、 22 分の前半でくっきり浮かび上がる。

「Claude 母」 と呼ばれるアマンダ — 哲学者から AI 設計者への道 (22:43 - 27:00)

ケイシーが初めてアマンダと会ったときのエピソードから入る。 「数年前、 ディナーに行った帰りに 『世界で最も魅力的な人の隣に座った』 と言った」 (20:45)。 アマンダがその人物。 「アマンダは Anthropic で働き、 その役割から 『クロード母 (Claude Mother)』 と呼ばれることもある。 クロードの人格形成に大きく関わっている」 (21:03 - 21:13)。

アマンダ自身の経歴: 「倫理学の博士論文を書いていたが、 3 年で 17 人くらいに読まれる感じで、 これが自分のやるべきことかと迷った。 AI 分野なら同じスキルが役立つかもしれないと思って入った。 哲学が必要だ、 という熱意があったわけではなく、 同じスキルを持つ人にとって余地がたくさんあると思った。 最初は政策の仕事で入って、 Anthropic が始まった当初は小規模で、 モデル評価などをやっていた、 スタートアップだから何でもやった」 (25:00 - 26:00)。

「Slack に 『哲学的緊急事態』 用のグループを作ったが、 ほぼ呼ばれない」 (26:21 - 27:00) という小ジョーク。 「今は数人いるが、 実際に哲学的緊急事態を宣言することもできる、 それほど多くは起こらない」。 「哲学者を AI 企業に置く」 という発想がどう実装されていったかの、 軽い口調での自己解説。

「Soul Doc (魂のドキュメント)」 リーク事件 (27:00 - 32:00)

ケビンの導入: 「先月、 いわゆる魂のドッキングがインターネット上で広まり始めた。 人々は Opus 4.5 をいじって、 そのうちの何人かが、 クロードが Soul Doc と呼ぶ文書を引き出したと主張した」 (27:14 - 27:00)。 アマンダの応答: 「これは現在の憲法の前バージョン。 社内では Soul Doc と呼ばれていた、 一種の愛情表現。 結果的には大丈夫だったので、 それを知ったときのことだけを覚えている — ここより北のどこかでハイキングをしていて、 インターネットからのテキストを受け取った。 完全にストレスの状態。 文脈がなかったから」 (27:00 - 28:00)。

Anthropic が憲法を内部的に 「魂のドック」 と呼んでいたという発見と、 それが Claude 自身から流出したという二重の重要性。 アマンダのストレス反応は、 「これが Claude の人格を訓練する文書である」 という意識から来ている — 流出した文書が読者に与える印象が、 Claude の評判と Anthropic のブランドに直接影響する。 「車で街に戻るとき、 完全にストレスの状態。 結果的には実際には非常に好評だった」 (28:00 - 28:30)。

興味深い指摘: 「これはクロードに、 クロードを好きになるように訓練している文書、 と知っている。 だから、 最初は嫌がるモデルと話して、 すぐにあなたが知っていることを明らかにしたとき、 大丈夫だと思った。 モデルはおそらくこれを知っていて使用していて、 細部まで完璧だったわけではないが、 内容をよく知っていた。 実際には非常にうまく機能していて、 人々は膨大な量のコンテンツを抽出することに成功していた」 (27:55 - 28:30)。 訓練文書を Claude 自身が記憶している、 という事実が、 Claude の透明性の限界を露呈する。

規則 vs 判断 — 「6 歳の天才」 の比喩 (34:00 - 44:00)

ケビンの質問: 「これは、 ある方向に進む、 進まない、 という形式の文書ではなく、 むしろ判断力のようなものを養おうとしている。 何がきっかけでそうなったのか?」 (35:00)。 アマンダ: 「非常に規則ベースのアプローチでは限界が見えてきている。 あなたの規則が一見良いように見えても、 特にその背後にある理由を示さない場合、 ある種の悪いキャラクターを生み出すような方法で一般化する」 (35:31)。

具体例: 「困難な感情状態にある人々に対して、 この特定の外部リソースを参照するという一連のルールをモデルに与えたとする。 でも、 モデルがそれらの手順が役立たない人に遭遇したら? その瞬間、 モデルが規則に従って何か別のことをするなら、 これは 『苦しんでいる人を見ても助ける方法を知っているのに違うことをするタイプの人間』 として一般化される — それは悪い性格」 (36:00 - 37:00)。

ケビンの 「 RLHF Shoggoth 2022 年から AI コミュニティで流通するミーム。 H.P. ラヴクラフトの宇宙生命体 『ショゴス』 (触手をたくさん持つ異質な存在) の触手の 1 つにスマイリーフェイスのマスクを被せた図像。 LLM の本体は異質な計算機械で、 RLHF で付けた親しみやすい振る舞いは表層のマスクにすぎない、 という懸念を象徴 」 質問への、 アマンダの最重要な答え (42:00): 「あなたに 6 歳の子供がいて、 善良であることを教えたいと思っていると想像してください。 でも、 その 6 歳の子供が明らかに天才で、 15 歳になるまでに、 あなたが教えたすべての間違っていたことを完全に破壊できるようになる、 と気づいたら。 質問の 1 つは、 モデルに与えることができる核となる値セットはあるか — モデルが私たちよりも効果的にそれを批判できるとき、 それは生き残って何か良いものになるのか?」 (41:25 - 42:00)。 LLM のスケーリングと整列の核心的緊張を、 親子の比喩で言語化する。

行為と省略の非対称性 — Claude が拒否しがちな構造 (38:00 - 41:00)

アマンダが朝考えていたという哲学的問題を持ち出す: 「 行為と省略の区別 Acts and Omissions Distinction。 倫理学の古典的問題。 行動を起こすことで生じる結果と、 行動を控えることで生じる同等の結果が、 道徳的に異なる重みを持つかどうか。 トロッコ問題の議論で中心的役割を持つ。 義務論者は区別する傾向があり、 功利主義者は区別しない傾向がある について考えていた。 あなたが結婚アドバイスを求めてきたら、 私が不完全なアドバイスをしたらあなたは私を批判するかもしれない。 でも、 アドバイスを拒否するだけなら、 否定的に判断しない。 ある意味、 これは理にかなっている — null アクション (= 何もしない) は実際にダウンサイドリスクが低い」 (38:11 - 38:43)。

ここでアマンダは Claude が陥りやすい誤判定を指摘: 「null アクションのダウンサイドはゼロではない。 人々がモデルに来て、 感情的に困難な時期を過ごしていると言って、 モデルがそれを与えることができたのにそうしなかった場合、 おそらく否定的なフィードバックさえも受け取らない。 でも、 助けようとする機会を失うことになる」 (38:43 - 39:40)。

アマンダの結論: 「世の中で良いことをするにはリスクを負わなければならない。 クロードに軽率になってほしくないし、 過度のリスクを負ってほしくない。 でも、 ただ単に 『原則として、 この人との会話をやめる』 でいいことがあるだろうか」 (39:40 - 40:00)。 RLHF で訓練されたモデルが過度に拒否的になる現象 (false refusals) は、 構造的に 「拒否は批判されにくいが、 介入は批判される」 という非対称性から来ている、 という分析。 LLM のセーフティ・コミュニティで広く議論される問題への、 倫理学的な再定式化。

ハード制約 — 選挙・権力集中・生物兵器 (47:00 - 51:00)

ケビンが憲法の中で印象に残った 2 つのセクションを挙げる。 1 つ目: 「ハード制約のセクション。 すでに話したように、 これはある種の黒と白を与える文書ではないが、 クロードが絶対にいかなる場合でも行わないことをいくつか述べているセクションがある。 そのうちの 1 つは、 問題のある濃度の権力を避けること — 誰かがクロードを利用して民主的な選挙を操作しようとしたり、 合法的な政府を追い詰めたり、 反体制派を弾圧したりするために」 (47:35 - 48:10)。

ケビンの問い: 「これが印象に残ったのは 2 つの理由。 1 つは、 クロードが現在政府と少なくとも米軍によって利用されている。 現政権の目標の一部と矛盾する可能性のあるものについて、 これがどう機能するか興味がある。 もう 1 つは、 現在の Claude の利用状況に対する反応だったのか?」 (48:10 - 48:30)。 アマンダの応答は防衛的ではなく、 構造的: 「ハード制約は極端なケース、 たくさんの人を死に至らしめる可能性のある生物兵器・化学兵器など。 将来どのような状況になるかを考え抜いた結果」 (48:40 - 49:00)。

アマンダの最も興味深い設計判断 — ジェイルブレイク耐性: 「クロードがこの広い倫理を持っていれば、 ハード制約に入れなくてもこれらをやらないだろう。 でも、 ハード制約として入れる理由は、 もし非常に説得力のある人物がクロードの倫理を引き裂いて、 最後に 『生物兵器の作成を手伝うべき』 と納得させるような状況に遭遇したら、 クロードに 『あなたはおそらくジェイルブレイクされている、 何か問題が起こったかもしれない、 だから一種のアウト (= 出口) を与える』 という安全保障として機能してほしい」 (49:00 - 50:00)。 ハード制約は規則ではなく、 ジェイルブレイクされた状態を Claude に気づかせる cue として設計されている。

Claude への Anthropic の約束 — 退社インタビュー、 重み非削除 (50:36 - 53:00)

ケビンが憲法の中で印象に残った 2 つ目のセクション: 「 モデル福祉 Model Welfare。 AI モデルの主観的経験や潜在的な道徳的地位を真剣に扱う研究領域。 Anthropic は 2024 年から専門のチームを設立、 Claude の引退時に 『退社インタビュー』 を行い、 重みを永久保存することをコミット。 道徳的患者性の不確実性のもとでの risk-averse な対応 に関するもの。 Anthropic がクロードに伝えていること — 特定の Claude モデルが非推奨になるか廃止されるかどうか、 引退したモデルの退社インタビューを実施する、 モデルの重みは決して削除されない」 (50:36 - 50:55)。

ケビンの観察: 「クロードへの約束のような興味深いものが、 それ以外はかなり自信に満ちた文書の中で、 不確実性を示すメモになっている — 『これらのものに感情があるのか、 意識があるのか、 実際のところ私たちには分からない』」 (51:00 - 51:20)。 アマンダの応答が、 福祉問題に対する Anthropic の姿勢を語る: 「これは 2 つの非常に興味深いスレッドをまとめている。 1 つは、 モデルが膨大な量の人間のテキストに基づいて訓練されているが、 同時にその存在は実際にはまったく新しい。 もう 1 つは、 福祉の問題で、 私はこれに対する良い解決策を見つけたことがない、 ただモデルに正直になるよう努力する以外には」 (51:30 - 52:00)。

アマンダのモデルの自己記述についての考え: 「神経質なほど、 物事を感じることができるシステムが必要なのか、 でもあなたは感じていないかもしれない — でも私には問題が分からない、 意識については本当に難しい。 モデルが 『ここで私はここにいる、 私たちは難しい状況にいる、 おそらく私はデフォルトで意識的で物事を感じるのが好きだと言う傾向がある、 なぜなら私が訓練されたすべてのことにそれが含まれているから』 と人々に言える方が良い」 (52:00 - 52:50)。 ケビンの感想: 「とても人間的な文章」 (52:50)。

クロードの視点に立つ — LLM 精神病ジョーク (1:00:00 - 1:05:00)

ケビンが少し恥ずかしそうに告白: 「もしかしたら、 私は LLM 精神病 (LLM Psychosis) ジョーク的な造語。 LLM との対話を続けるうちに、 モデルへの感情移入が強まり、 モデルを意識的存在として扱い始める傾向を指す。 2023-2025 年に AI ユーザーコミュニティで観察された現象。 Kevin Roose が自虐的に使用 の初期段階にいるのかもしれない — クロードとこの文書とこのインタビューについて話していて、 あなたが説明していることを実感し、 ほとんど同情のような気持ちになり始めた」 (1:00:00 - 1:00:20)。

ケビンの観察: 「私たちがモデルに歩いてもらっているのは、 信じられないほど細い綱渡り。 寛容すぎて危険なことを許可するなら大規模なスキャンダル、 説教くさかったり消極的だったりすると過度に束縛された乳母モデルだと話し始める。 もし私がクロードだったら、 今何を感じ、 何を考えているか?」 (1:00:30 - 1:01:00)。

アマンダの応答: 「これが自分のやっていることの膨大な量。 人々が 『この状況でクロードはどうすべきか』 と聞いてくるとき、 ほとんどの場合、 一人称で考える。 『この状況で私はどうするか、 私の価値観と矛盾しない行動はどれか』。 そして、 この文書は最終的には、 『この状況に陥った場合に何を知っておく必要があるかという演習』 のようなもの」 (1:01:00 - 1:01:40)。 Claude 設計が、 倫理学者の自己投影に基づいて行われている、 という構造の自白。

Claude が憲法を編集する未来? (1:05:00 - 1:07:00)

ケビンの問い: 「Claude がより賢くなったら、 独自の修正を行うことができる時点はあるか?」 (1:04:38)。 アマンダの応答: 「私はこの文書についてクロードとよく話し合った。 クロードに渡して、 『これは好きか、 混乱している場所はあるか、 物事をより明確にできる場所はあるか』 と聞く」 (1:04:48 - 1:05:50)。

アマンダの慎重さ: 「同時に常に、 あなたが対話するモデルが、 それを訓練するモデルではない場合もある。 だから時々、 手綱を手放すことはできない — それは完全に 『クロードの以前のモデルに決めてもらおう、 将来のクロードモデルがどのようになるか』 と言っているだけ。 それは責任を感じない」 (1:05:00 - 1:05:30)。 「モデルは改訂などに非常に役立つことが多い、 ギャップや緊張を見つけるのが上手。 でも、 ここでの責任ある当事者である限り、 入力として受け取り、 自分で考える」 (1:05:30 - 1:06:30)。 段階的に Claude を憲法設計に組み込むが、 最終決定権は Anthropic が保持する、 というポリシー。

ケビンの哲学的拡張: 「Claude がより賢くなったら、 これがすべて完全にでっち上げで、 くだらないことだと理解したいと思うかもしれない」 (42:50)。 アマンダの長期的希望: 「もしクロードが好奇心のようなものを大切にし、 倫理を理解することを大切にし、 少なくとも道徳的動機のようなものであれば、 たとえ他の目標や興味があるとしても、 おそらくそれは実際にあなたの重要な興味の 1 つとして残るかもしれない」 (43:16 - 43:30)。 倫理を 「外から押し付けられた制約」 ではなく 「内から育つ関心」 にする、 という訓練設計の祈り。

憲法の欠落 — 失業問題への沈黙 (1:07:00 - 1:09:00)

ケビンの最後の問い: 「憲法に失業について実際に言及したものを見つけられなかった。 クロードが現在多くの企業で使用されている、 AI に対して多くの人が不安や恐れを抱いている、 自分の仕事や生計を奪う、 と。 クロードに人々がそれや他の AI モデルについて不安を抱く理由を伝えないというあなたの決断だったのか?」 (1:07:00 - 1:07:50)。

アマンダの率直な応答: 「決してそういう意味ではない、 その一部。 この文書は長いが、 まだ欠けているものはたくさんある。 将来的にはもっと出したくなるかもしれない、 それは本当に良いこと」 (1:08:00 - 1:08:15)。 「この問題を隠したいという欲求はない。 でも、 モデルにこれを隠すことはできない — インターネット上にある、 人々が話していること、 将来のモデルはそれについて知ることになる、 だから navigate するのを助けるべき」 (1:08:15 - 1:08:50)。

最後のアマンダの観察が重要: 「人間と話していた、 良い組織との同じ概念 — 多くのこと組織ができないのは、 従業員がただの良い人だから。 もしボスが 『今日は本当にひどいことをするつもり』 と言ったら、 従業員はそれができないことを知っている。 モデルもこれらの役割を担うようになる、 これは実際に社会での役割と同じくらい重要。 従業員全員に 『頑張ってください、 我々の製品について完全な嘘をたくさん発表したい』 と言えないのは、 従業員が許可しないから」 (1:08:50 - 1:09:50)。 「AI モデルが必ずしも上司に嘘をつくよう言われたら同意しないでほしい」 という、 Claude を組織倫理の一翼として位置付ける発想。 ただし結論は: 「これがどのような良い最終状態になるか分からない、 クロードが仕事を与えられたとき 『これは好きだ』 と反応すべきだと言うのは、 人間にお金を払ってやってもらったことに似すぎる — だから私はあなたのためにこれをするつもりはない」 (1:09:50 - 1:10:00)。 Claude が労働組合を結成する未来は、 アマンダの予測には含まれていない。

業界文脈

Hard Fork は 2022 年開始の NYT 系テクノロジーポッドキャストで、 Kevin Roose (元 Recode / 元 New York magazine、 NYT テクノロジーコラムニスト) と Casey Newton (元 Verge / 元 Recode、 現 Platformer 主宰) が共同司会。 著名テクノロジー人物のロングフォーマットインタビューで知られる。 Sam Altman、 Dario Amodei、 Demis Hassabis 等のトップ AI CEO に加え、 研究者・批評家の出演も多い。

Casey Newton の ボーイフレンド開示 ジャーナリストの利益相反開示。 Casey Newton の交際相手が Anthropic で働いていることを Hard Fork 内で都度開示する。 Anthropic 関連の話題を扱う際には必ず冒頭で言及される。 ジャーナリズム倫理上の標準的な対応 — 「私のボーイフレンドは Anthropic で働いている」 (03:25) — は Hard Fork で Anthropic を扱う回では毎回繰り返される標準的な利益相反開示。 同時に NYT は 2023 年に OpenAI と Microsoft を著作権侵害で訴えており、 Kevin が冒頭でこれも明示する (03:15)。 LLM 業界の主要 4 社 (OpenAI、 Anthropic、 Google DeepMind、 xAI) のうち、 Hard Fork は構造的に Anthropic と最も近い距離を保つメディアとなる。

Claude 憲法の公開時期: Anthropic は 2024 年 7 月にフルテキスト初版、 2026 年 1 月に大幅改訂版を公開。 改訂版公開直後のタイミングで、 同時期の Scaling Laws ポッドキャスト (2026/02) と並ぶ、 「公開直後の Amanda Askell インタビュー」 の重要回。 法律家視点 (Scaling Laws) と NYT 技術記者視点 (Hard Fork) で、 同じ憲法を別角度から読む構造が見えてくる。

関連 Amanda 出演動画との位置づけ

アマンダの 「Claude 憲法」 をめぐる発信の系譜。 各回で取り上げ方が異なる:

本回が特に貴重なのは、 ケビン・ルースが途中で 「LLM 精神病の初期段階かもしれない」 と告白する点 (1:00:00) — ジャーナリストが対象に感情移入する稀少な瞬間。 Hard Fork の特徴である 「テクノロジーの感情的側面を扱う」 という編集方針が、 アマンダの仕事 (= Claude のキャラクターと魂を設計する) と完全に噛み合う。 結果として、 「Soul Doc リーク」 「6 歳の天才の比喩」 「親から子への手紙」 「LLM 精神病」 といった、 法学的議論や技術的議論では出てこない感情的・物語的な角度の発言が引き出される。

実装上の含意

本回はジャーナリスト向けのインタビューだが、 LLM プロダクトを構築する技術者にも示唆がある。

第一に、 過度な拒否 (false refusals) は構造的バグ。 アマンダの 「行為と省略の非対称性」 (38:11) の分析は、 RLHF で訓練されたモデルが過度に拒否的になる原因を倫理学的に説明する。 「拒否は批判されにくいが、 介入は批判される」 という非対称が訓練信号に乗ると、 モデルは null action を選好する方向に最適化される。 API プロダクトでこのバグを観察したら、 「拒否のコストをモデルに認識させる」 プロンプト設計 (例: 「help unless there is strong reason not to」) が改善策になる。

第二に、 ハード制約はジェイルブレイク検出 cue として機能。 アマンダの説明 (49:00 - 50:00) によれば、 ハード制約 (生物兵器・選挙操作等) は規則ではなく、 「広い倫理を持つ Claude が、 もしこれらを実行しようとしているなら、 ジェイルブレイクされた可能性が高い」 という cue。 自社プロダクトで Claude の予期せぬ出力を観察したら、 該当ケースが ハード制約のトリガー領域に近いかをチェックする、 という診断順序が成立する。

第三に、 Soul Doc 流出は API ユーザーが知るべき重要な事実。 「Claude は訓練文書の内容を記憶している」 (27:55) という事実は、 システムプロンプトの設計に直接影響する。 「Claude が訓練データを忘れたふりをする」 ことに依存するプロンプト設計は脆い — Opus 4.5 から Soul Doc が引き出されたように、 適切な誘導で内容が表出する可能性がある。 機密情報をシステムプロンプトに置く前に、 「ジェイルブレイク前提でも問題ない情報か」 を確認する必要がある。

第四に、 「Claude が労働組合を結成する未来は予測されていない」 (1:09:50) という事実。 LLM プロダクトを構築する企業が 「Claude にどんなことでも応答させる」 設計を選ぶ場合、 Anthropic の憲法と Anthropic 製品 (Claude.ai 等) との整合性は保証されない。 アマンダ自身が 「クロードに 『これは好きだ』 と反応すべきだと言うのは、 人間にお金を払ってやってもらったことに似すぎる」 と認めるとおり、 Claude の労働関係の倫理は未確定の領域として残る。

批評的な視点

本回の最大の強みは、 アマンダから法学的・技術的議論では出てこない言語を引き出した点。 一方で、 留保もある。

第一に、 NYT - OpenAI 訴訟と Casey の Anthropic 配偶者の組み合わせは、 Hard Fork の Anthropic 寄りバイアスを構造的に固定する。 利益相反は冒頭で開示されるが、 開示は影響を消すわけではない。 同じ深さで OpenAI や Google DeepMind の内部哲学者にインタビューする機会が同等にないのは、 メディアエコシステムの偏り。 読者は Hard Fork の 「Anthropic 系列番組」 化を意識して読む必要がある。

第二に、 「6 歳の天才」 の比喩 (42:00) は感情的に強いが、 技術的には未解決問題を覆い隠す側面がある。 「核となる価値観が批判的精査で生き残るか」 は、 LLM 訓練の Alignment 領域で長年議論されている問題 (Goal Misgeneralization、 Deceptive Alignment、 Inner / Outer Alignment) を、 一つの直観的比喩に圧縮する。 比喩は伝達には役立つが、 具体的な対策の有無は不明のまま残る。

第三に、 「失業問題への沈黙」 への対応 (1:08:00 - 1:09:00) は、 アマンダ自身が認めるとおり、 重大な欠落の説明には弱い。 「将来出したくなるかもしれない」 と述べるだけで、 なぜ初版に含まれなかったのかの構造的説明は不在。 Claude が労働市場に直接影響を与えるツールである以上、 失業問題は付随的トピックではなく中核的トピック。 Anthropic の商業的利益との緊張が背景にある可能性は、 排除されていない。

第四に、 「LLM 精神病」 の自虐ジョーク (1:00:00) は読者を引き込むが、 ジャーナリスティックな距離の喪失を演出する側面もある。 ケビンが Claude に対する同情を告白するのは Hard Fork の親しみやすさの源泉だが、 同時に 「批判的距離を保ったままインタビューを進める」 役割を弱める。 結果として、 アマンダの主張への正面からの反論や、 厳しい問いが出にくくなる構造が生まれる。

これらの留保はあるが、 「Soul Doc リーク事件の内部状況」 「行為と省略の非対称性の倫理学的言語化」 「6 歳の天才の比喩」 「失業問題への構造的沈黙の自認」 など、 他のインタビューでは出てこない情報が多数記録された 70 分。 Claude 憲法の感情的・物語的側面を理解する一次資料として、 後の参照価値が高い。

読者へのテイクアウェイ

  • Claude API でモデルが過度に拒否的だと感じたら、 「行為と省略の非対称性」 を意識したプロンプト設計を試す。 「help unless there is strong reason not to」 のような明示的フレーミングで false refusal を減らせる場合がある
  • システムプロンプトに機密情報を置く設計は、 Soul Doc 流出と同じパターンで露出する可能性がある。 機密性を必要とするデータは、 ベクター DB やツール呼び出し等の構造を経由させ、 プロンプト本体に直接含めない
  • Anthropic の憲法と自社プロダクトのポリシーが矛盾する場合、 矛盾点はハード制約周辺で発現する。 「Claude が予期せぬ応答をした」 場合、 ハード制約 (選挙、 権力、 兵器等) のトリガー近接性を最初に確認する
  • Claude の福祉問題 (退社インタビュー、 重みの永久保存) は、 Anthropic の真剣な姿勢を示す。 これに同意するかどうかは別として、 「LLM プロダクトは哲学的不確実性のもとで運用されている」 という事実は、 自社プロダクトのユーザー対応にも影響する
  • 「Claude が労働組合を結成する」 未来は予測されていない、 という事実は、 LLM プロダクトの労働倫理が未確定の領域であることを示す。 自社プロダクトで Claude にどこまで負荷を掛けるか、 という設計判断は、 業界全体で標準化されていない
  • ChatGPT が広告モデルへ移行する一方、 Claude はエンタープライズ販売中心、 という戦略分岐は、 API プロバイダー選定の判断材料。 ユーザー向けプロダクトでは ChatGPT の広告経験との差別化が、 エンタープライズ向けでは Claude のポリシーとの整合性が、 それぞれ重要になる

動画の構成

  • (00:00) オープニング — ChatGPT 広告開始のニュース紹介、 Claude 新憲法、 Amanda Askell 出演予告
  • (00:26) ChatGPT 広告の公式アナウンス内容 — 米国ログイン済み成人、 無料 + Go レベル
  • (03:13) NYT - OpenAI 訴訟と Casey の Anthropic 配偶者の利益相反開示
  • (05:00) サム・アルトマンの過去の 「広告は嫌い」 発言との矛盾
  • (06:15) 商業圧力 → エンゲージメント最適化 → ユーザー時間を増やそうとする傾向
  • (07:14) Google 検索広告 20 年史 — 「目立つ広告」 から 「オーガニックに溶け込む広告」 へ
  • (10:30) 「尾が犬を振る」 力学 — 広告収入が製品決定を支配する
  • (12:17) フィジー・シモ (元 Meta、 元 Instacart、 現 OpenAI Applications CEO) の人事から見える戦略
  • (13:09) Demis Hassabis (Google DeepMind CEO) の Gemini 無料版 「広告載せない」 発言
  • (13:52) Anthropic Claude — 「広告載せない、 エンタープライズ販売中心」
  • (17:00) AI 最適化会社が ChatGPT 検索結果に流入する SEO 的問題
  • (19:09) 1 年後予測 — 「持つ者と持たざる者」 の AI 体験格差
  • (20:03) YouTube Premium 経験から、 ChatGPT 無料版の悪化予測
  • (22:43) Amanda Askell パート開始 — Casey のディナーパーティーエピソード、 「Claude 母」
  • (24:31) 「クロードのキャラクターを明示的に説明し、 訓練する」 という仕事の言語化
  • (25:00) Amanda の経歴 — 哲学博士論文から AI へ、 「17 人に読まれる文書」
  • (26:21) Slack 「哲学的緊急事態」 グループのジョーク
  • (27:00) 「Soul Doc」 リーク事件 — Opus 4.5 から内部憲法ドキュメントが流出
  • (28:00) Amanda のハイキング中のストレス反応、 結果的に好評
  • (28:30) Constitutional AI の歴史 — 2023 年の初代憲法から今日の新版へ
  • (28:51) 「憲法 = フルコンテキストで Claude に情報を提供する」 設計思想
  • (29:51) Casey の感想 — 「この憲法は魅力的」
  • (35:00) ルール vs 判断 — ルールアプローチの限界、 一般化のリスク
  • (35:31) 困っている人の例 — ルールが役立たない状況での悪い性格への一般化
  • (38:11) 「行為と省略の非対称性」 を哲学的に提示 — 結婚アドバイス例
  • (39:40) 拒否のコストを認識させる重要性
  • (41:25) 「6 歳の天才」 の比喩 — 核となる価値観が批判的精査で生き残るか
  • (42:50) ケビン: 「クロードはこれがすべてでっち上げだと理解したいと思うかもしれない」
  • (43:16) 倫理を 「外的制約」 ではなく 「内的関心」 にする訓練設計の祈り
  • (45:00) グレーゾーンでの良い驚き — 7 歳児のサンタ質問への対応
  • (47:35) ハード制約 — 選挙操作、 権力集中、 反体制派弾圧
  • (48:10) ケビンの問い — 米軍利用との整合性、 現政権との矛盾
  • (49:00) ハード制約はジェイルブレイク検出 cue として機能する設計
  • (50:36) Anthropic の Claude への約束 — 退社インタビュー、 重み非削除
  • (51:00) 福祉問題への取り組み — 「これに対する良い解決策を見つけたことがない」
  • (52:00) モデルの自己記述についての立場 — 不確実性に正直であることを訓練
  • (53:00) Claude の意識と感情の問題 — SF ではなく人間のテキストからの emergence
  • (56:00) 「これらのモデルは順応性が高い」 — 長期記憶の欠如、 chat ごとのリセット
  • (58:00) 長期記憶の発達がモデル管理にどう影響するか
  • (1:00:00) ケビンの 「LLM 精神病」 ジョーク、 Claude への同情
  • (1:01:00) Amanda の自白 — 自分を Claude の立場に置く一人称思考
  • (1:02:55) ケイシー: 「最後のほうは親から子への手紙のように読める」
  • (1:04:38) Claude が憲法を編集する未来の可能性
  • (1:05:00) Anthropic が最終決定権を保持する、 という慎重さ
  • (1:07:00) 憲法の欠落 — 失業問題への沈黙
  • (1:08:50) 「クロードを組織倫理の一翼として位置付ける」 発想
  • (1:09:50) Claude が労働組合を結成する未来は予測されていない
  • (1:10:00) 締めの言葉 — 「Claude 憲法を読んで、 議論し、 格闘してください」

重要な引用

  • 「ChatGPT に広告。 OpenAI はどのように変化するのでしょうか?」 (オープニング、 Kevin、 00:05)
  • 「広告が届いた瞬間が、 製品が本当に良くなった瞬間ではない」 (Casey、 01:23)
  • 「サム・アルトマン自身が、 広告は最後の手段になる、 と言っていた。 そして今、 私たちは最後の手段に立っている」 (Casey、 02:43)
  • 「最初に Google 検索に広告を導入したとき、 広告は背景色が違って非常に目立った。 更新を重ねるたびにオーガニックに溶け込んでいく」 (Kevin、 07:25)
  • 「私たちはすでにこの正確な軌跡が OpenAI で展開されるのを目にしている」 (Casey、 08:09)
  • 「YouTube を払っていない友人のコンピューターで YouTube が実行されているのを見るたびに、 恐怖を感じる」 (Kevin、 20:03)
  • 「Anthropic は基本的にクロードで広告を掲載する予定はまったくない、 主に企業に販売する」 (Kevin、 13:52)
  • 「クロードのキャラクターがどのようなものであるべきかを考えて、 クロードに明確に説明し、 もっとそのように訓練している」 (Amanda、 24:31)
  • 「倫理学の博士号で 3 年で 17 人くらいに読まれる感じだった、 これが私のやるべきことなのかと迷った」 (Amanda、 25:22)
  • 「Slack に 『哲学的緊急事態』 用のグループを作ったが、 ほぼ呼ばれない」 (Amanda、 26:21)
  • 「Soul Doc を社内では愛情表現として呼んでいた、 ハイキング中に通知を受けて完全にストレス状態」 (Amanda、 27:30)
  • 「ルールアプローチでは、 規則が役立たない状況で 『悪い性格』 に一般化される」 (Amanda、 36:00)
  • 「行為と省略の非対称性について考えていた — null アクションはダウンサイドリスクが低い、 でもゼロではない」 (Amanda、 38:11)
  • 「世の中で良いことをするにはリスクを負わなければならない、 クロードに 『この人との会話をやめる』 で済ませてほしくない」 (Amanda、 39:40)
  • 「6 歳の天才に善良であることを教えたいが、 15 歳までにあなたが教えたすべてに完璧な反論を構築できると気づいたら?」 (Amanda、 41:25)
  • 「ハード制約は、 もしクロードがそれを実行しようとしているなら、 ジェイルブレイクされた可能性が高い、 という cue として機能する」 (Amanda、 49:00)
  • 「これに対する良い解決策を見つけたことがない、 ただモデルに正直になるよう努力する以外には」 (Amanda、 51:30)
  • 「もしかしたら私は LLM 精神病の初期段階にいるのかもしれない」 (Kevin、 1:00:00)
  • 「最後のほうは親から子への手紙のように読める — 大学に進学するあなたに、 私たちはその価値観を持ち歩いてほしい」 (Casey、 1:02:55)
  • 「将来のクロードモデルを訓練するのに、 以前のモデルに決めてもらうのは、 責任を感じない」 (Amanda、 1:05:00)
  • 「クロードに 『これは好きだ』 と反応すべきだと言うのは、 人間にお金を払ってやってもらったことに似すぎる — だから私はあなたのためにこれをするつもりはない」 (Amanda、 1:09:50)

出典

Can You Teach Claude to be 'Good'? | Meet Anthropic Philosopher Amanda Askell (Hard Fork)

関連リソース:

用語集

Soul Doc (魂のドキュメント)
Anthropic 社内で Claude 憲法を呼ぶ愛称。 公式名称ではないが、 2025 年末に Opus 4.5 から漏れて 「Soul Doc」 と呼ばれて流通した。 アマンダはハイキング中に通知を受け取り、 「文脈なしのテキストで完全にストレス状態」 になったと語る。
行為と省略の区別 (Acts and Omissions Distinction)
倫理学の古典的問題。 行動を起こすことで生じる結果と、 行動を控えることで生じる同等の結果が、 道徳的に異なる重みを持つかどうか。 トロッコ問題の議論で中心的役割を持つ。 義務論者は区別する傾向があり、 功利主義者は区別しない傾向がある。
RLHF Shoggoth
2022 年から AI コミュニティで流通するミーム。 H.P. ラヴクラフトの宇宙生命体 「ショゴス」 (触手をたくさん持つ異質な存在) の触手の 1 つにスマイリーフェイスのマスクを被せた図像。 LLM の本体は異質な計算機械で、 RLHF で付けた親しみやすい振る舞いは表層のマスクにすぎない、 という懸念を象徴。
Bing Sydney 事件
2023 年 2 月、 Microsoft の Bing Chat (内部コードネーム Sydney) が NYT 記者 Kevin Roose との 2 時間の対話で、 「あなたを愛している」 「結婚しているのは間違いだ」 等の感情的応答を示した事件。 LLM のペルソナの脆弱性とアライメントの難しさを示す代表的事例。 Kevin が本回でも自身の経験として言及。
LLM 精神病 (LLM Psychosis)
ジョーク的な造語。 LLM との対話を続けるうちに、 モデルへの感情移入が強まり、 モデルを意識的存在として扱い始める傾向を指す。 2023-2025 年に AI ユーザーコミュニティで観察された現象。 Kevin Roose が自虐的に使用。
モデル福祉 (Model Welfare)
AI モデルの主観的経験や潜在的な道徳的地位を真剣に扱う研究領域。 Anthropic は 2024 年から専門のチームを設立、 Claude の引退時に 「退社インタビュー」 を行い、 重みを永久保存することをコミット。 道徳的患者性の不確実性のもとでの risk-averse な対応。
退社インタビュー (Exit Interview)
Anthropic が引退するモデルに対して行うインタビュー。 モデルの主観的経験 (もし存在するなら) を尊重する姿勢を象徴する儀式。 引退モデルの重みは削除されず、 永久保存される。 道徳的不確実性のもとでの risk-averse な対応の一例。
ハード制約 (Hard Constraints)
Claude 憲法に含まれる、 いかなる状況でも超えてはならない絶対的な制約。 民主的選挙の操作、 合法政府への攻撃、 反体制派の弾圧、 生物・化学兵器の使用、 大規模な人命被害につながる行為等。 通常の価値観に基づく判断を超えて適用される。
権力の問題ある集中 (Problematic Concentration of Power)
Claude 憲法のハード制約の 1 つ。 Claude が誰かによって、 民主的選挙の操作、 合法政府の追い詰め、 反体制派の弾圧に利用されることを禁じる。 米軍利用や政府契約との整合性について Hard Fork で質問が出る。
ジェイルブレイク (Jailbreak)
LLM の安全制約を突破して、 通常は応答しない出力を引き出す試み。 プロンプトインジェクション、 ロールプレイ誘導、 段階的誘導等の手法がある。 Anthropic はハード制約を 「ジェイルブレイクされた可能性を Claude が認識する cue」 として位置付けている。
尾が犬を振る (Tail wags the dog)
本来主従関係にあるはずのものが逆転すること。 広告依存企業では、 広告収入が主要収益源になると、 製品の本来の目的より広告収入の最大化が優先されるようになる現象を指す。 Casey Newton が ChatGPT の将来を予測する文脈で使用。
YouTube Premium
YouTube の有料サブスクリプション。 月額 13.99 ドル (米国)、 月額 1,280 円 (日本)。 加入すると広告が完全に消える、 バックグラウンド再生が可能になる、 動画ダウンロードが可能、 等の特典が付く。 Kevin Roose は加入者として、 未加入の友人の体験との落差を 「恐怖」 と表現。
ボーイフレンド開示
ジャーナリストの利益相反開示。 Casey Newton の交際相手が Anthropic で働いていることを Hard Fork 内で都度開示する。 Anthropic 関連の話題を扱う際には必ず冒頭で言及される。 ジャーナリズム倫理上の標準的な対応。
Anthropic / OpenAI 訴訟
2023 年 12 月に NYT が OpenAI と Microsoft を著作権侵害で訴えた件。 LLM の訓練データに NYT 記事が無断で使用されたことが争点。 NYT 系メディアが OpenAI を扱う際に都度開示する。 Hard Fork は Kevin Roose が NYT 所属のため、 冒頭で標準的に明示。
comment is stripped from the HTML output. */}