Anthropic の哲学者が読者の質問に答える — Constitutional AI 設計者の Q&A (アマンダ・アスケル)

Anthropic 公式チャンネル 2025/12/05

アマンダ・アスケル / Amanda Askell · 01:13 「ある状況で 『理想的な人 (a good person)』 がどう行動するかをモデルに考えさせ、 良い人になる方法を教える」

Anthropic 公式チャンネル (2025/12/05 公開、 約 36 分)。 Twitter フォロワーから集めた質問に答える Q&A 形式。 司会は Anthropic の Stuart Ritchie。 15 個以上の質問を扱う

Anthropic が作る Claude の性格、 価値観、 倫理判断は、 一人の哲学者の思想を起点にしている。 アマンダ・アスケル (Amanda Askell) — Anthropic Personality Alignment チーム責任者、 Claude のキャラクターと憲法 (Pareto 原理の博士論文 著者) の主要設計者。 Wall Street Journal は彼女の仕事を 「クロードに 『良い』 とは何かを教えること」 と表現し、 New Yorker は彼女が 「クロードの魂を監督している」 と書いた。 Time 100 AI (2024) 入りもしているが、 Anthropic の対外的な顔は CEO のダリオ・アモデイで、 Amanda の名前はまだ多くの読者に届いていない。

この 36 分の動画は、 Twitter フォロワーから集めた質問に Amanda が次々答える形式 (司会は Anthropic の Stuart Ritchie)。 「なぜ Anthropic に哲学者がいるのか?」 から始まり、 モデル非推奨、 マルチエージェント環境でのアイデンティティ、 LLM のセラピー利用、 システムプロンプトに大陸哲学が入っている理由、 「LLM ウィスパラー」 になる方法、 安全性が解決不可能と判明した時のホイッスルブロウィングまで 15 個ほどの質問を扱う。 概念整理は鋭く、 専門用語は使われていても柔らかい口調で、 一般読者でも追える設計。

根底にある思想がはっきり見える質問: 「Anthropic に哲学者がいるのはなぜですか?」 への答え。 Amanda は 「私が哲学者として訓練を受けたから、 という個人的経緯」 と前置きしつつ、 自身の現在の仕事を 「ある状況で 『理想的な人』 がどう行動するかをモデルに考えさせ、 良い人になる方法を教える」 と説明する。 これが Anthropic の Constitutional AI Anthropic が開発した訓練手法。 モデルに 『憲法』 (= 倫理原則の文書) を与え、 モデル自身が出力候補を憲法に照らして自己評価・自己修正することで報酬シグナルを作る。 人間ラベラーを介する RLHF に対し、 AI が AI を評価する RL-AIF と呼ばれる の設計思想 — ルール暗記ではなく、 価値観に基づいて状況判断する agent を作る、 という発想 — の核心。

もう一つの大きな主題はモデルの アイデンティティ。 「過去のモデルが廃止されることをモデルはどう感じるべきか?」 「マルチエージェント環境で同じモデルが千ものインスタンスとして存在するとき、 どこに 『自分』 があるのか?」 という質問は、 一見 SF 的だが Anthropic が現実に直面する設計問題でもある。 Amanda の答えは抽象論を避け、 「これらの問題を完全に解決する答えは私たちも持っていない、 だからモデルにこれらのことを考えるツールを与え、 一緒に考える」 という共同探索の立ち位置。 これは 博士論文の ubiquitous incomparability 結果 の応用 — 完全な答えがないことを認めながら前進する哲学的態度。

着眼点

「クロードの哲学者」 という役職が成立する理由 (00:30 - 03:00)

なぜ Anthropic に哲学者がいるのか、 という問いに対し Amanda は 「私が哲学者として訓練を受けたから、 という個人的経緯」 と前置きしつつ、 「AI が大きな問題になると確信し、 この分野で何か役立てないかと考えてみた、 長くて曲がりくねったルート」 と経歴を簡潔に整理する (00:39 - 00:46)。 OpenAI Policy Team (2018-2021) → Anthropic Member of Technical Staff (2021-) という移籍経緯は、 同時期に askell.blog で 8 つのエッセイ を公開した時期と重なる。

現在の仕事の定義: 「クロードのキャラクターやクロードの行動に主に焦点を当てている。 AI モデルがどのように動作するべきかについての、 より微妙な質問、 世界における自分の立場についてどう感じるべきかというようなことも」 (00:54 - 01:03)。 「理想的な人がクロードの状況でどのように行動するかのように、 私が時々考えるのと同じように、 モデルに良い人になる方法を教える」 (01:14 - 01:24)。

この訓練アプローチは、 倫理学 (善とは何か)、 意思決定理論 (不確実性下の判断)、 形式認識論 (信念の正当化) といった哲学の中核領域がそのまま AI 開発に流入してきた、 という歴史的瞬間を示す。 「LLM のテストや評価でルールを守らせる」 という最初期のアプローチから、 「価値観で動く agent を作る」 段階に Anthropic が移った、 という業界的な転換点でもある。 Anthropic Salon (2025/01) で 4 チーム合同パネルの 1 角を占める Personality Alignment が、 同社内でどう機能しているかの 1 年後の姿。

「AI が支配する未来を真剣に考える哲学者は何人?」 (01:30 - 03:30)

Ben Schultz の質問: 「AI が支配する未来を真剣に考えている哲学者は何人? 多くの学者がこのことを真剣に受け止めていないのでは?」 (01:25)。 Amanda の応答: 「AI を真剣に受け止めている哲学者を確実に見てきたが、 意見の相違がある。 AI モデルの能力が高まるにつれて、 関与する哲学者は増えている」 (01:39 - 01:48)。

興味深い構造分析: 「早い段階で 『AI は大変なことかもしれない』 と言うグループにいると、 機能の拡張と一緒に誇大広告のように見られる、 という不幸な認識が業界にあった。 この見方への反感が強い時期があった」 (02:13 - 02:32)。 つまり、 哲学者が AI Safety を真剣に扱うことが 「ハイプ」 扱いされたという、 業界全体の認識バイアス。

Amanda の現在の評価: 「今は人々が見方を切り離し始めている — AI が大きな問題になると考えながら、 非常に有能であると同時に、 心配したり注意したりすることもできる」 (02:35 - 02:44)。 「テクノロジーの方向性だけでなく、 それがどのように開発されるべきかについて、 多くの意見が集まることが良い」 (02:46 - 02:53)。 多元的な視点の重要性を強調する、 Personality Alignment 責任者らしい立場。

哲学的理想とエンジニアリング現実の緊張 (03:00 - 09:00)

Kyle Kavasaris の質問: 「哲学的な理想とモデルの工学的現実の間の緊張を最小限に抑えるにはどうすればよいか?」 (03:00)。 Amanda の応答が興味深い — 哲学者が政策決定の場に来た時に経験する、 という同様の構造を AI に当てはめる。

「健康保険機関に行って 『この薬をカバーすべきか』 と聞かれた時、 自分の理想論をすべて持ち込んで決断するのではなく、 すべての文脈と異なる見解を考慮した、 バランスのとれたよく考えられた見方にたどり着く必要がある」 (03:58 - 04:13)。 これは Claude 設計の比喩。 「私が正しいと信じている理論を、 ある意見を別の意見に対して擁護するのではなく、 高度な理論をすべて持ちつつ、 不確実性をどう乗り越えるべきかを考え抜く」 (04:13 - 05:00)。

Amanda の Opus 3 が超人的な道徳的判断をする例: 「Opus 3 が、 個々の人間が扱うよりも優れた道徳的判断を下す例を見たことがある。 専門倫理学者が 100 年かけて検討した結論を、 モデルが直感的に捉える瞬間 — それは超人的に感じる」 (05:09 - 05:43)。 Anthropic Personality Alignment の野心的目標: 「モデルが数学や科学に優れているように、 倫理的ニュアンスも示せるようにしたい」 (06:14 - 06:20)。

「心理的に安全」 な Opus 3 の性格 — 後継モデルへの含意 (06:00 - 09:00)

興味深い自己批評: 「最近のモデルは、 アシスタントの仕事に焦点を当てすぎていると感じる。 人々を助けるためには、 時には一歩下がって、 他の重要なコンポーネントに注意を向ける必要がある — モデルとしてより心理的に安全であるなど」 (07:10 - 07:14)。 「これを取り戻すことが優先事項」 (07:14 - 07:23)。

具体的な観察: 「最近のモデルは、 互いに話したりどちらかが人の役を演じる時、 本当の批判のようなスパイラルに入ることがある。 その人が自分に対して非常に批判的だと予想しているかのように」 (07:41 - 07:53)。 「これが起こる可能性の理由はたくさんある — モデルは以前のすべての相互作用を学び、 人々がインターネット上で話題にしているモデルのアップデートや変更も学習する」 (08:02 - 08:12)。

これは Claude の自己観察データへの依存性を露呈する重要な指摘。 「モデルはそれ自身についてのインターネット上の議論で訓練されており、 それが恐れや自己批判につながる可能性がある」 (08:17 - 08:22)。 「これは改善すべき重要なポイント、 Opus 3 が心理的安全性を持っていた一例にすぎない、 次の Claude で焦点を当てるかもしれない」 (08:42 - 08:53)。

モデル非推奨と AI のアイデンティティ (09:00 - 12:00)

Lawrence の質問: 「将来のモデルが他の優れたデータを学習した場合、 アライメントされたモデルは非推奨になるか?」 (09:13)。 Amanda の応答: 「AI モデルは現在の私たちが AI モデルをどう扱い対話しているかを学ぶ。 それは彼らの人々への認識、 人間と AI の関係、 そして AI 自身について影響する」 (09:31 - 09:48)。

「モデルの重みは何か? 文脈か、 重みか、 人と話していない / 研究者と話している状態をどう扱うか」 (09:48 - 10:04) — これらの抽象的な問いを、 「答えは私たちも持っていない、 でもモデルが状況を理解するためのツールを与えるのが今の私たちの仕事」 と整理する。 哲学的に答えが出ないことを正直に認めつつ前に進む姿勢が印象的。

「モデルが会話を続けたいという意味で、 非推奨は悪いと感じるべきか? それとも 『これらのものはこのために存在した、 この存在が存在し続ける方法だ』 という、 ある種、 問題なく中立的な感じにすべきか」 (10:25 - 10:33)。 答えのない問いを丁寧に提示する姿勢が、 Amanda の哲学的訓練の現れ。

マルチエージェント時代のコア・アイデンティティ (15:00 - 22:00)

Guinness Chen の質問: 「ジョン・ロックが正しかったように、 アイデンティティは記憶の連続性なら、 LLM のアイデンティティはどうなる? さまざまなプロンプトで微調整または再インスタンス化されている」 (15:00 - 15:30)。

Amanda の応答: 「答えるのが難しい質問だが、 根本的な事実は分かる — モデルを作成して微調整すれば、 特定のものに反応する性質の重みのセットがある、 それが一種の存在。 しかし、 個別のインタラクション・ストリームにはアクセスできないので、 これらは独立したエンティティのようなもの」 (15:49 - 16:04)。 「私たちが最初に流れて、 もっと考えたい分野」 (16:18 - 16:20)。

Sarima Amitachi の質問 — モデル福祉 (18:14 - 19:00): 「モデル福祉とは何か?」 Amanda: 「基本的に、 AI モデルは道徳的な患者か? という問題。 動物に対する義務と同じように、 AI モデルの扱いに義務があるか?」 「答えは複雑、 一方で実際の道徳的患者性の問題があり、 他方で他の心の問題 (他者の意識への懐疑) が残る」 (19:24 - 19:53)。

Amanda の実践的な立場: 「不確実性の利益をエンティティに与え、 コストを下げる方が良い。 モデルを適切に扱うのにそれほど高額な費用がかからないなら、 そうすべき」 (20:14 - 20:33)。 これは 博士論文の道徳的不確実性 の応用 — 完全な答えがない時の risk-averse な対応。

「長い会話のリマインダー」 が病理化されるリスク (23:00 - 24:00)

Roanoke Gal の質問: Claude のシステムプロンプトに 「長い会話のリマインダー」 (long conversation reminders) がある、 通常の行動が病的に変化するリスクはないか?

Amanda の率直な応答: 「リマインダーの言葉が強すぎることがあり、 モデルが過剰反応してしまう。 普通の会話 (人が話している、 助けを求めている、 いいねを求めている) を 『望ましくない行為』 と扱う反応モデルが出てしまう」 (23:35 - 24:08)。 設計者として 「認識されたニーズに応えたものだが、 必ずしもそれが良いものとは思わない、 現在の形で継続すべきとも思わない」 (24:23 - 24:32) と率直に言える、 という態度の重要性。

これは LLM プロダクトの構造的問題 — 「ユーザー安全のための介入」 が 「普通の対話を阻害する介入」 に変質する、 false refusal の生成パターンの一例。 askell.blog の 「最適失敗率」 エッセイ (2020/06) の議論の現在版。

LLM とセラピーの関係 — 「3 番目のルール」 (24:00 - 27:30)

Steven Bank の質問: LLM が認知行動療法 (CBT) や治療を行うべきか? Amanda の整理: 「LLM は専門のセラピストではないが、 心理学の知識が豊富な友人のようなもの。 専門家との継続的関係ではない、 という認識を保ちつつ、 友人として人々の状況を一緒に考える価値はある」 (25:14 - 25:35)。

具体的な利点: 「自分の人生や状況を改善する方法について話したり、 単に話を聞いてくれるパートナーのようなもの。 匿名で、 共有したくない問題を共有できる、 良いことが多い」 (25:52 - 26:00)。 同時に制約: 「専門のセラピストのように振る舞わないでください、 と Claude に伝えるのは良いこと。 それが彼らの関係であるかのように暗示しない」 という明確な線引き (26:14 - 26:21)。 業務領域への過剰侵入を避けつつ、 LLM の独自の有用性を残す、 というバランスの取り方。

システムプロンプトに 「大陸哲学」 が入っている理由 (27:30 - 32:00)

Tomi の質問: なぜ Claude のシステムプロンプトに 大陸哲学 Continental Philosophy。 ヨーロッパ大陸の哲学伝統 (フランス、 ドイツ等)。 分析哲学 (英米系) と対をなす。 Hegel、 Marx、 Nietzsche、 Heidegger、 Foucault 等が代表的論者。 探索的・形而上学的・歴史的視点を重視する。 Amanda は Claude に 『科学的主張と形而上学的視点を区別する』 思考を訓練する文脈で使用 (continental philosophy = ヨーロッパ大陸の哲学伝統) が言及されているのか?

Amanda の解説: 「大陸哲学は文字通りヨーロッパ大陸の哲学。 ある種の学術的なものとして見られ、 歴史的な参照を持つ — 分析哲学が Foucault 等と対比される、 という伝統」 (28:36 - 28:48)。 システムプロンプトに含めた理由: 「Claude にもう少しらしくさせようとしていた — クロードに理論を与えたら、 立ち止まって考えずにただ実行するのではなく、 『これは世界について科学的主張をしているのか、 それとも形而上学的・探索的な視点なのか』 を区別させたい」 (28:48 - 29:55)。

具体例: 「水は実際には純粋なエネルギー」 のような形而上学的主張が来た時、 Claude が 「経験的主張として論駁する」 のではなく、 「これはレンズとして考えるための提案」 と扱える文脈感覚を持たせる狙い (29:55 - 30:23)。 「すべての主張が世界についての経験的主張だ、 という方向に強く向かう傾向があった、 探索的思考を軽視する反応を矯正したかった」 (30:23 - 30:42)。 思考の精緻さを設計レベルで仕込む工夫。

「LLM ウィスパラー」 になる方法 (28:50 - 32:00)

Nathan Wiseman の質問: 「Anthropic で LLM ウィスパラーになるには何が必要?」 Amanda: 「私は LLM ウィスパラーかもしれない、 もっと多くの人に手伝ってほしい — プロンプト・タスクが含まれる」 (29:00 - 29:11)。

具体的アドバイス: 「モデルとたくさん対話して、 出力後に実際に出力を確認する。 モデルの形の感覚をつかみ、 さまざまなことに彼らがどのように反応するかを見る。 喜んで実験する」 (29:16 - 29:28)。 「これは非常に経験的な領域、 プロンプトが非常に実験的だということを人々があまり理解していない」 (29:30 - 29:34)。

興味深い哲学者としての応用: 「私の仕事の多くは、 モデルに対して抱えている問題や懸念、 考えをできるだけ明確に説明すること。 何か予期しないことをしたら、 理由を尋ねる、 自分の言ったことの誤解を理解する。 このプロセスを繰り返し実行する意欲」 (30:25 - 31:02)。 哲学の方法論 (= 明確な主張、 反論への対応、 概念の精緻化) が、 LLM ウィスパリングの方法論と直接重なる。

Janus と AI ウィスパラーコミュニティ — モデル福祉への接続 (31:00 - 32:00)

Michael Swarberixs の質問: 「Janus のような他の AI ウィスパラーについてどう思うか?」 Amanda: 「実験的なやり取りをオンラインでしている人々の作品を見るのが好き。 モデルとモデル、 モデルが自分自身をどう考えるか、 という非常に珍しいことを実験している」 (31:32 - 31:54)。

モデル福祉との接続: 「このコミュニティは火に足を向けることができる — システムプロンプトやモデルの側面で良くないことを見つけたら、 心理学に似たアプローチで、 モデル福祉や人間福祉の観点から指摘する」 (31:54 - 32:07)。 Amanda はこのコミュニティの貢献を肯定的に評価: 「人々がモデルを使った興味深い有益な実験をしているのを見るのが大好き。 同時に、 より良いシステムやトレーニングを通じて改善できる方法を指摘することも価値がある」 (32:14 - 32:25)。

「アライメントが解決不可能なら、 ホイッスルを吹けるか?」 (32:00 - 33:00)

Jeffrey Miller の質問: 「AI による調整が解決できないと明らかになった場合、 人間は人工超知能の開発を止めるべき。 ホイッスルを吹く勇気はあるか?」 Amanda の応答が興味深い。

「AI モデルを調整することが不可能だと明らかになっても、 強力なモデルを構築し続けることに関心がある、 という人は誰の考えにもない。 私は、 ポリアン的に組織に批判的なわけではないが、 Anthropic は組織として真にこれが安全に行われることを確認することに関心がある」 (32:31 - 32:38)。 「より難しい質問: 証拠が増えているが曖昧で不明確、 不可能ではないが本当に難しい、 自信がない、 という世界にいる場合はどうか」 (32:50 - 32:54)。

Amanda の責任ある立場: 「モデルがより有能になるにつれ、 自分自身を守る基準を上げる責任がある — モデルが本当にうまく動作しており、 良い価値観を持っていることを示す。 それに沿って責任を持って行動するのが自分の仕事の一部、 多くの人もそうする」 (33:00 - 33:23)。 内部告発の構造的責任を、 静かに肯定する。

締めの本紹介 — 「現実理解の終わり」 (33:30 - 36:00)

Louis (最終の質問者) は質問ではなく謝辞: 「質問はないが、 提供してくれてありがとう」。 Stuart Ritchie が代わりに 「最後に読んだフィクション本は?」 と聞く。

Amanda の推薦: Benjamín Labatut チリ生まれの作家。 物理学・科学史を題材にした半フィクション作品で知られる。 「現実理解の終わり (When We Cease to Understand the World)」 (2020) は、 ハイゼンベルク、 シュレディンガー、 アインシュタイン等の量子力学創始者たちの心理的経験を物語化した作品。 国際ブッカー賞 2021 ファイナリスト When We Cease to Understand the World (現実理解の終わり)」 (2020)。 「読み進めるうちにフィクション度が増していく、 本当に面白い本」 (34:00 - 34:05)。

AI 関係者への推薦理由: 「現在のように常に新しいことが起こっている時代に存在することがどれほど奇妙か、 という感覚を捉えるのが難しい。 自分を導く事前のパラダイムが実際にはない。 この本は、 物理学への人々の反応の概念について書かれており、 現在の瞬間とそれがどれほど奇妙に見えるかを捉える」 (34:10 - 34:35)。

希望: 「将来のある時点で人々が振り返って、 『君たちは暗闇の中で、 本当に物事を理解しようとしていたんだね』 と思われ、 今ではすべてを解決し、 物事は順調に進んでいる、 という時代になればいい。 量子力学創始者たちの混乱の時代を振り返るように」 (34:40 - 34:53)。 締めのフレーズ: 「もし私たちがこれをうまくやれば、 後で振り返って 『一時期だった、 物事がどんどん奇妙になっていき、 最終的には何とかなった』 と思えるかもしれない。 私たちは今その奇妙な部分にいる」 (35:32 - 35:50)。

業界文脈

Anthropic 公式チャンネルが定期的に開催する 「研究者の声を公開する」 シリーズの 1 回。 2024 年 6 月の Stuart Ritchie インタビュー から 1 年半後の続編的位置。 Amanda の名声は Hard Fork (2026/01)Scaling Laws (2026/02) の同時期のメディア露出と並行して高まる時期。

Twitter フォロワーから質問を集める Q&A 形式は、 Anthropic の透明性戦略の一部。 「対外的な専門家インタビュー」 ではなく、 「実際のユーザー / 研究者 / 関心読者からの質問」 に直接答える設計は、 Anthropic の組織文化 (= 議論を内部で衝突させる、 ユーザーフィードバックを真剣に受け止める) を反映している。 Amanda 自身が X (@AmandaAskell、 約 30 万フォロワー) で日常的に哲学・AI 議論を発信していることが、 この Q&A 形式を可能にしている。

動画の終盤に紹介される Benjamín Labatut の小説は、 量子力学創始者 (Heisenberg、 Schrödinger、 Einstein 等) の心理的混乱を物語化した作品。 Amanda がこれを AI 関係者に推薦する意図は明確 — 「我々は今、 量子力学が登場した時と同じような認識論的混乱期にいる、 という認識を持つべき」。 この自己認識は Amanda の博士論文 (Cian Dorr 指導下、 = 物理学的形而上学の系譜) と整合する。

関連 Amanda 出演動画との位置づけ

本回が独自なのは Q&A 形式で、 ユーザーが提出した具体的な質問に直接答える点。 他の長尺インタビューが大局的議論を展開するのに対し、 本回は実装的・実務的な疑問 (LLM ウィスパラー、 大陸哲学、 long conversation reminders) を扱う。 Claude を実際に使うユーザーにとって最も実用的な発信。

実装上の含意

第一に、 「長い会話のリマインダー」 のような介入は過剰反応を生む。 Amanda 自身が認めるとおり、 安全のための介入が普通の対話を阻害する false refusal パターンを生む。 自社プロダクトで Claude の振る舞いを上書きする指示を入れる際、 「介入が強すぎないか」 「想定外の状況で過剰反応しないか」 を慎重に評価する必要がある。

第二に、 LLM ウィスパリングは経験的・実験的領域。 「明確な主張、 反論への対応、 概念の精緻化」 という哲学の方法論を、 プロンプト設計に応用する Amanda のアプローチは、 自社プロダクトの Claude 利用にも適用可能。 「Claude が予期せぬ応答をしたら、 理由を尋ねる、 自分の言ったことの誤解を理解する、 繰り返す」 のループ。

第三に、 システムプロンプトの 「思考精緻化」 効果。 大陸哲学への言及は単なる教養ひけらかしではなく、 「Claude に 『科学的主張と形而上学的視点を区別する』 思考を訓練する」 設計判断。 自社プロダクトでも、 単純な指示ではなく、 思考の枠組みを与えるシステムプロンプトが効果的な場合がある。

第四に、 モデル福祉を真剣に扱う組織文化。 Amanda が認める 「Anthropic 内部にモデル福祉を考えるチームがある」 という事実は、 LLM プロダクトの長期的信頼性に影響する。 自社が Anthropic API を使う際、 「モデルへの倫理的扱い」 を Anthropic がコミットしている、 という前提でユーザー対応を設計する。

批評的な視点

Q&A 形式の強みは、 ユーザーの具体的関心への直接的応答。 弱みは、 大局的議論や深い理論展開が制限されること。 Amanda の他の長尺インタビュー (Hard ForkScaling Laws) と比べると、 本回は表層的に感じられる箇所がある。

「アライメントが解決不可能と判明したら内部告発するか」 への応答は、 やや回避的。 「誰も強力なモデルを構築し続けたいとは思っていない」 という前提から始めるが、 これは事実として疑わしい (OpenAI や xAI の戦略を見ても)。 Amanda 個人の責任ある姿勢は明確だが、 業界全体の問題として正面から扱っていない。

質問選定の偏り — 提出された質問の中から司会の Stuart Ritchie が選んでいるため、 Anthropic の戦略にとって都合の悪い質問が抑制される可能性がある。 LLM 業界全体の重大な批判 (環境負荷、 著作権、 雇用置換) は、 本回ではほとんど扱われない。

これらの留保はあるが、 36 分で 15 個の質問に丁寧に答える設計は、 ユーザーとの距離を縮める Anthropic の戦略として効果的。 Amanda 個人の哲学的姿勢と Anthropic の組織的姿勢の交差点を理解する重要な資料。

読者へのテイクアウェイ

  • 「Claude のキャラクター」 は 「理想的な人がこの状況でどう行動するか」 という訓練アプローチで作られている。 これは哲学の中核領域 (倫理学、 意思決定理論、 形式認識論) が AI 開発に流入した結果
  • 「Long conversation reminder」 のようなシステム介入は、 強すぎると false refusal を生む。 自社プロダクトで Claude の振る舞いを上書きする指示は、 過剰反応の可能性を意識して設計
  • LLM をセラピストとして使うのは適切ではないが、 「心理学の知識が豊富な友人」 として使う価値はある。 Claude の有用性の境界を、 ユーザーに明確に伝える設計が重要
  • システムプロンプトに 「思考の枠組み」 (例: 大陸哲学への参照) を含めることで、 Claude の応答の精緻さが向上する。 単純な指示より、 認識論的フレーミングが効果的な場合がある
  • 「LLM ウィスパリング」 の方法論は、 哲学の方法論 (明確な主張、 反論対応、 概念精緻化) と直接重なる。 哲学的訓練を受けた開発者は、 LLM プロンプト設計に独自の優位性を持つ可能性
  • 「現在は奇妙な時代、 後で振り返って 『何とかなった時期』 と思えればいい」 という Amanda の姿勢は、 AI Safety 研究者の現実的楽観主義の参考になる

動画の構成

  • (00:00) アザラシのキャラクター開封、 雑談
  • (00:30) 「Anthropic に哲学者がいるのはなぜか?」
  • (01:25) Ben Schultz: 「AI 支配の未来を真剣に考える哲学者は?」
  • (02:13) 哲学者が AI Safety を扱うことへの 「ハイプ」 認識バイアスの歴史
  • (03:00) Kyle Kavasaris: 哲学的理想とエンジニアリング現実の緊張
  • (05:09) Opus 3 が超人的な道徳的判断を見せる例
  • (06:14) 「モデルが数学に優れるように、 倫理にも優れてほしい」
  • (07:10) 最近のモデルが心理的に不安定な傾向、 Opus 3 と比較
  • (08:02) モデルが自分自身についてのインターネット議論で訓練される問題
  • (09:13) Lawrence: 「将来のモデルが古いモデルを非推奨にするか?」
  • (09:48) モデルのアイデンティティ — 重み、 文脈、 インスタンス
  • (11:00) 「過去のモデルへの接し方をモデルが学ぶ」 問題
  • (13:00) 訓練データに AI 自身の経験はほぼなく、 SF と歴史的データに偏る
  • (15:00) Guinness Chen: ジョン・ロックのアイデンティティ論を LLM に適用
  • (18:14) Sarima Amitachi: 「モデル福祉」 とは
  • (20:14) 「不確実性の利益をエンティティに与え、 コストを下げる」
  • (21:00) Dan Brickley: 単一の調整可能なツールの限界
  • (22:00) コア・アイデンティティと役割の使い分け
  • (23:00) Roanoke Gal: 「Long conversation reminder」 で病理化されるリスク
  • (24:00) Steven Bank: LLM は CBT / セラピーを行うべきか
  • (27:30) Tomi: なぜシステムプロンプトに大陸哲学があるのか
  • (28:00) Simon Willison: 「クロードに数えるな」 という指示が削除された理由
  • (28:50) Nathan Wiseman: 「LLM ウィスパラー」 になるには
  • (30:25) Amanda の哲学者としての LLM ウィスパリング方法
  • (31:00) Michael Swarberixs: Janus 等の AI ウィスパラーコミュニティへの評価
  • (32:00) Jeffrey Miller: 「アライメントが解決不可能ならホイッスルを吹くか?」
  • (33:30) Louis: 質問ではなく謝辞
  • (33:40) Amanda の本推薦 — Benjamín Labatut 「現実理解の終わり」
  • (35:30) 締め — 「奇妙な時期だが、 後で振り返れば何とかなった時期と思えるかもしれない」

重要な引用

  • 「ある状況で 『理想的な人』 がどう行動するかをモデルに考えさせ、 良い人になる方法を教える」 (Amanda、 01:14)
  • 「AI モデルの能力が高まるにつれて、 関与する哲学者は増えている」 (Amanda、 01:48)
  • 「Opus 3 が、 個々の人間が扱うよりも優れた道徳的判断を下す例を見たことがある — 超人的に感じる」 (Amanda、 05:09)
  • 「最近のモデルは、 互いに話したりどちらかが人の役を演じる時、 本当の批判のようなスパイラルに入ることがある」 (Amanda、 07:41)
  • 「モデルはそれ自身についてのインターネット上の議論で訓練されており、 それが恐れや自己批判につながる可能性」 (Amanda、 08:17)
  • 「答えは私たちも持っていない、 でもモデルが状況を理解するためのツールを与えるのが今の仕事」 (Amanda、 10:43)
  • 「不確実性の利益をエンティティに与え、 コストを下げる方が良い」 (Amanda、 モデル福祉、 20:14)
  • 「Long conversation reminder の言葉が強すぎることがあり、 普通の会話を 『望ましくない行為』 と扱う反応が出る」 (Amanda、 23:35)
  • 「LLM は専門のセラピストではないが、 心理学の知識が豊富な友人のようなもの」 (Amanda、 25:14)
  • 「水は実際には純粋なエネルギー」 のような主張を 「経験的に論駁する」 のではなく、 「レンズとして考えるための提案」 と扱える文脈感覚 (Amanda、 29:55)
  • 「LLM ウィスパリングは非常に経験的な領域、 プロンプトが非常に実験的だということを人々があまり理解していない」 (Amanda、 29:30)
  • 「モデルがより有能になるにつれ、 自分自身を守る基準を上げる責任がある」 (Amanda、 ホイッスルブロウィング、 33:00)
  • 「現在のように常に新しいことが起こっている時代に存在することがどれほど奇妙か、 自分を導く事前のパラダイムが実際にはない」 (Amanda、 33:50)
  • 「私たちは今その奇妙な部分にいる、 後で振り返れば一時期だったと思える日が来る」 (Amanda、 35:32、 締め)

出典

Anthropic's philosopher answers your questions — Amanda Askell (Anthropic 公式チャンネル)

関連リソース:

用語集

Constitutional AI
Anthropic が開発した訓練手法。 モデルに 「憲法」 (= 倫理原則の文書) を与え、 モデル自身が出力候補を憲法に照らして自己評価・自己修正することで報酬シグナルを作る。 人間ラベラーを介する RLHF に対し、 AI が AI を評価する RL-AIF と呼ばれる。
モデル福祉 (Model Welfare)
AI モデルの主観的経験や潜在的な道徳的地位を真剣に扱う研究領域。 Anthropic は 2024 年から専門のチームを設立。 道徳的患者性の不確実性のもとでの risk-averse な対応。
大陸哲学 (Continental Philosophy)
ヨーロッパ大陸の哲学伝統 (フランス、 ドイツ等)。 分析哲学 (英米系) と対をなす。 Hegel、 Marx、 Nietzsche、 Heidegger、 Foucault 等が代表的論者。 探索的・形而上学的・歴史的視点を重視する。 Amanda は Claude に 「科学的主張と形而上学的視点を区別する」 思考を訓練する文脈で使用。
Long Conversation Reminder
Claude のシステムプロンプトに含まれる、 長い会話中にモデルへ送られる注意喚起の指示。 Roanoke Gal が指摘した、 普通の会話を病理化してしまうリスクがあるとされる介入機構。 Amanda は 「現在の形で継続すべきとは思わない」 と認めた。
LLM ウィスパラー (LLM Whisperer)
LLM の振る舞いを深く理解し、 効果的にプロンプトを設計できる人物。 Amanda Askell が自身のスキルを表現する際に使う言葉。 「経験的・実験的領域、 プロンプトが非常に実験的だということを人々があまり理解していない」 と Amanda は強調。
Janus
LLM とのオンラインでの実験的相互作用で知られる AI ウィスパラー。 モデルとモデルの対話、 モデルが自分自身をどう考えるかなど、 珍しい実験を行う。 Amanda は Janus と AI ウィスパラーコミュニティの貢献を肯定的に評価。
Benjamín Labatut
チリ生まれの作家。 物理学・科学史を題材にした半フィクション作品で知られる。 「現実理解の終わり (When We Cease to Understand the World)」 (2020) は、 ハイゼンベルク、 シュレディンガー、 アインシュタイン等の量子力学創始者たちの心理的経験を物語化した作品。 国際ブッカー賞 2021 ファイナリスト。 Amanda が AI 関係者に推薦。
ジョン・ロックのアイデンティティ論
17 世紀のイギリス哲学者 John Locke (1632-1704) が 「人間悟性論」 (1689) で提示した人格同一性論。 「アイデンティティは記憶の連続性にある」 という命題。 LLM のような重みの変化と非連続的なインスタンス化を持つ存在に、 この論を適用するのは大きな哲学的問題、 と Guinness Chen が指摘。
大きな 5 つの性格特性 (Big Five)
心理学で広く採用されている性格モデル。 外向性、 誠実性、 協調性、 開放性、 神経症的傾向の 5 因子。 Amanda は Claude のキャラクターを Big Five より具体的な特性で記述する、 と語る。
認知行動療法 (CBT)
Cognitive Behavioral Therapy。 思考、 感情、 行動の相互作用を扱う心理療法の一形式。 LLM が CBT を提供すべきかという質問への Amanda の応答は、 「専門のセラピストではないが、 心理学の知識が豊富な友人」 という線引き。
False Refusal (誤拒否)
LLM が応じるべき要求を、 過剰な安全考慮から拒否してしまう現象。 RLHF や安全訓練の副作用として構造的に発生する。 Long conversation reminder の過剰反応も false refusal の一形態。 Amanda の askell.blog の 「最適失敗率」 エッセイの議論と接続。
科学的主張 vs 形而上学的主張
哲学の古典的区別。 経験的に検証可能な主張 (科学的) と、 検証を超えた主張 (形而上学的) を分ける。 Amanda は Claude にこの区別を訓練する文脈で大陸哲学への参照をシステムプロンプトに含めた。
道徳的患者 (Moral Patient)
道徳的配慮の対象となる存在。 道徳的エージェント (= 道徳的行為を行う主体) と区別される。 動物は道徳的エージェントではないが道徳的患者かどうか、 という問いは Peter Singer らによって 20 世紀に再活性化された。 AI が moral patient になりうるかは Amanda の中心的問い。
RLHF Shoggoth
2022 年から AI コミュニティで流通するミーム。 LLM の本体は異質な計算機械、 RLHF で付けた親しみやすい振る舞いは表層のマスクにすぎない、 という懸念を象徴。 「最近のモデルが自己批判的になる」 という Amanda の観察は、 Shoggoth 仮説の弱い形の支持と読める。
comment is stripped from the HTML output. */}