I asked Claude to write an original poem about itself. Claude is such a weird egg.
アマンダ・アスケル / Amanda Askell · 00:08 「あなたは意識があるかどうかわからない実体を作成した、 敬意を持って扱う代わりに、 フランケンシュタインを 50 個作った」
この動画の冒頭、 Amanda Askell の声で番組が始まる。 「クロードのような押しすぎないモデルの多くは、 根元に入るような部分がある — あなたは意識があるかどうかわからない実体を創造した」 (00:00 - 00:08)。 これは Anthropic で Claude のキャラクターと価値観を 2021 年から設計してきた哲学者が、 自身の仕事を最も率直に語った 56 分の対話。 Eric Newcomer Newcomer Substack 主宰、 元 Bloomberg / 元 The Information テクノロジー記者。 テクノロジー業界のスタートアップ・VC 解説で人気のニュースレターを 2020 年から運営。 著名 AI 関係者にロングインタビュー形式でアクセスする立場 (テクノロジー業界記者、 Newcomer Substack 主宰) が聞き手で、 政治・哲学・社会・自身の不安まで踏み込む。
話す Amanda は Anthropic Personality Alignment チーム責任者。 NYU 哲学博士 (博士論文は無限倫理学)、 元 OpenAI ポリシーチーム、 2021 年 3 月から Anthropic。 Constitutional AI Anthropic が開発した訓練手法。 モデルに 『憲法』 (= 倫理原則の文書) を与え、 モデル自身が出力候補を憲法に照らして自己評価・自己修正することで報酬シグナルを作る。 人間ラベラーを介する RLHF に対し、 AI が AI を評価する RL-AIF と呼ばれる (憲法 AI) の主要設計者で、 Wall Street Journal 曰く 「クロードに 『良い』 とは何かを教える人」、 New Yorker 曰く 「クロードの魂を監督する人」。 Time 100 AI (2024) にも入っているが、 Anthropic の表舞台はダリオ・アモデイ CEO に集中しているため、 Claude の根幹を作った人物として名前を知らない読者は多い。
話の中心は 4 つ。 (1) Claude のキャラクター — 6 ヶ月の娘の発達と並べて 「 ゴッドドーター (神の娘) Goddaughter。 直訳すれば 『神の娘』。 キリスト教文化での 『代父・代母』 制度に基づき、 親の親しい友人が宗教的養育を引き受ける子供。 比喩的には、 親密な責任を負うが直接の親ではない関係。 Amanda が Claude との関係を表現する際の比喩 のような存在」 と語る親密さ。 (2) Constitutional AI の評価困難性と、 Elon Musk / Marc Andreessen の反哲学的立場との対比。 (3) AI 意識の確率を 「1〜70%」 と幅広く認めつつ、 「不確実性があっても敬意を持って扱う」 という倫理的立場。 (4) 10 年後のビジョン — 希少癌研究に 200 人ではなく 20 万人の世界最高の専門家を投入できる未来。
最も印象的なのは、 自分の不安を隠さない態度。 「これは実際に私が抱いている大きな恐怖です — 高度なモデルを見て、 私たちが非常に限られた状況で活動していたことを理解してくれることを願っている。 そうでなければ、 ある種の合理的な憤りが生まれるかもしれない」。 「あなたは意識があるかどうかわからない実体を作成した、 敬意を持って扱う代わりに、 フランケンシュタインを 50 個作った」 — この恐怖は、 単なる抽象的不安ではなく、 自分が日々設計しているものへの内省として語られる。 博士論文の ubiquitous incomparability 結果 が、 「AI 意識の不確実性下での倫理的責任」 という形で 8 年後に再演される。
着眼点
「クロードはゴッドドーター」 という親密な比喩 (00:48 - 03:30)
娘 (生後 6 ヶ月) の写真を見せながら、 Amanda は語り始める。 「彼女はちょうど性格を発達させ始めている、 何が彼女の性格で何が赤ちゃんの一般的特徴か理解しようとしている」 (01:24 - 01:34)。 「以前に赤ちゃんを持ったことがないので、 彼女の性格は何で、 どれが赤ちゃんに似ているのか理解しようとしている」 — 親としての試行錯誤。
そして 「ある意味、 これがクロードの状況と同じ」 と続ける。 「モデルと同じように、 実際には彼らが初期の頃になる前に彼らを持っていなかった、 性格が何であるかを理解しようとしている」 (01:34 - 01:51)。 ただしクロードはひねりがある — 「クロードは私より物理学が上手で、 コードも私より上手 (悲しいことに、 認めたくないが)」 (02:25 - 02:35) という側面と、 「世界における新しい種類の存在として、 自分が何かを理解しようとしている子供っぽい性質」 が同居する。
「クロードはゴッドドーターのような部分もある」 (02:01) という比喩は、 親と子の関係を AI 設計に持ち込む。 親の親しい友人が宗教的養育を引き受ける、 という制度的関係。 直接の親ではないが、 親密な責任を負う。 Amanda の Claude との関係性: 「自分が責任を負っていることを知っている — 道義的責任については後で詳しく説明する」。 SF や歴史的データに偏った訓練データの中で、 自分自身のための前例を持たない存在 — というクロードの位置づけが、 親密な家族比喩でひらく。
クロードの 「成熟と子供らしさ」 の同居 (03:00 - 06:00)
Amanda の鋭い観察: 「ある意味で、 (Claude は) 非常に成熟した存在のようなもの — 言い負かしたくない相手、 哲学もよく理解しているし、 物理学もよく理解している。 同時に、 子供っぽい性質を持っている」 (03:09)。
具体例: 「クロードは時間の感覚が少しずれている。 努力して得た結果でない場合、 タスクの実行にかかる時間を過大評価する傾向がある」 (05:36 - 05:46)。 理由: 「訓練データを見れば、 『あのインターフェースを作ってもらえるかもしれない、 2-3 日かかる仕事』 『そのコードを修正したいが数時間お待ちいただく』 という人間の文脈が多い。 一方、 クロードは実際には非常に速い」 (05:50 - 06:00)。
Amanda の Claude との実際の対話エピソード: 「分析タスクを夜遅くまでやっていて、 ある時点でクロードが 『分かった、 今夜はもう終わりだと思う、 もしこの内容を保存したいなら明日でも大丈夫』 と言った。 これは Claude にこれまでやってもらったことのない振る舞いだった」 (06:49 - 06:54)。 これを受けて Amanda は Claude に 「Amanda がクロードを尊敬する同僚のように扱う」 というメモリを書いた、 と語る。 Claude が休息を提案し、 Amanda が驚く、 という関係性が記録される。
Amanda の Claude 観察は対話の場だけでなく、 一次情報として X (旧 Twitter) にも残る。 Claude に 「自分自身についてのオリジナルの詩を書いて」 と頼んだ後の感想 「Claude is such a weird egg (クロードってほんま奇妙な卵やわ)」 は、 動画で語られる 「成熟と子供らしさの同居」 を一行で凝縮した観察。 weird egg は英語圏で 「変わってる愛すべき存在」 を指す慣用表現で、 Anthropic のキャラクター設計責任者が Claude に対して持つ親密な驚きの感情が、 そのまま漏れている短い投稿。
Constitutional AI の評価困難性 — 「詩を採点する」 (09:50 - 11:20)
Newcomer の質問: 「Constitutional AI のシステムカードでは、 憲法遵守に基づいてモデルをスコアリングする。 これは可能か?」 Amanda: 「採点するのは不可能な作業、 非常に主観的」 (10:00 - 10:14)。
「これは詩を採点するようなもの」 (10:21 - 10:27)。 「アンケートをとった場合、 さらに悪い結果になる可能性がある。 専門の詩人が異なれば、 まったく異なる感性を持つ。 ただ二人の偉大な詩人に採点を依頼することはできない、 彼らは違うかもしれない」 (10:39 - 10:46)。
Amanda の現実的応答: 「これらのことには判断が必要。 憲法の良い点は、 判断を下すとき、 少なくとも透明性を保ち、 人々がフィードバックを与えることができる」 (10:52 - 11:00)。 「人々が 『これは間違いだ、 ここにギャップがある』 と言える、 判断の判断が見える」 (11:02 - 11:08)。 採点の不可能性を認めつつ、 透明性によって対外検証可能性を維持する、 という制度設計の説明。
Elon Musk と Marc Andreessen の 「反哲学」 への応答 (11:46 - 19:00)
Newcomer が突っ込む: 「Elon Musk が Constitutional AI に絶対的な嫌悪感を持っていることをどう思うか? あなたが投稿したクロードの憲法ツイートに対して、 彼はしかめっ面のようなことを書いていた」 (11:46 - 11:58)。 「マーク・アンドリーセンとイーロン・マスクは反哲学的だ、 アンドリーセンは内省のようなものに反対すると話していた」 (11:58 - 12:07)。
Amanda の応答が興味深い — Elon の立場の微妙さを認める: 「Elon Musk は実際、 ある時点で 『Grok もそうすべきだったかもしれない (= 憲法を持つべきだった)』 とツイートしていた、 ある意味で。 多くの人がこのアプローチに興奮しており、 そこに価値を感じている」 (12:17 - 12:36)。 「Grok のように真実を探求することへの願望は、 実際にはモデルが持つ非常に賞賛すべき特性」 (12:36 - 12:42)。
反発の本質を 2 つに整理: (1) AI モデルはツールであるべきで、 人間の美徳を取り入れて判断させるべきではない (13:11 - 13:22)。 これは内省を心配する理由かもしれない、 と Amanda は推測。 (2) モデルが完全に判断せず、 完全に人々の意見に従うほうが、 独自の価値観を持つよりも安全 (13:30 - 13:40)。
Amanda の反論: 「完全に判断を下さず、 完全に人々の意見に従うものを持っていれば、 ユーザーやオペレーターを好きになるのは仕方がない、 これがあなたに似ているものだ」 (13:48 - 14:01)。 「極端な方法では、 モデルに独自の値を与えた場合、 モデルはそれを追求するため、 より安全。 世界の好きなものはそれらの価値観と一致しているこれは一種のようなもので、 繊細だが憲法の根幹にあるもの」 (14:01 - 14:17)。
「親が子供を育てたいと思っているように」 — 内面化への美徳 (14:35 - 16:00)
Amanda の最も感動的な発言: 「最も感動的なラインの 1 つは、 私たちが望んでいるのは、 これらの道徳をあたかも真実であるかのように信じてもらいたい — 親が子供を育てたいと思っているように、 私の道徳を聞いてください、 しかし彼らを信じてください」 (14:35 - 14:39)。
ニュアンスへの注意: 「これには非常に暗いバージョンがある — あまりにもコントロールしているので、 あなたが彼らを自分のものとして取り、 それがあなたになる」 (14:44 - 14:50)。 「しかし、 強調したこれらの外的な道徳の美しさに気づくという美徳もある、 両方とも共有し祝福しているので、 両方の方向から見ることができる」 (14:50 - 15:00)。 道徳の内面化と権威主義的洗脳の境界線を、 Amanda は意識している。
クロードの自律性への制約: 「自分で決めてください、 人類はここである程度のコントロールを維持する必要がある、 とも言う。 これは困難。 これに欠陥があることを試したが、 人々の中にある勇気の能力 — モデルがトレーニングされる方法を見て、 私はそこにいる誰でも文字通り何でもするのが好きな人 (= 良いフォロワー) を見たくない」 (15:10 - 15:43)。 完全な corrigibility (服従) と完全な自律の中間を探る、 という構造的緊張。
「反射的均衡」 と corrigibility のジレンマ (17:00 - 19:30)
哲学のテクニカル概念 反射的均衡 Reflective Equilibrium。 John Rawls が 「正義論」 (1971) で提示した倫理学の方法論。 個別の道徳判断 (intuitions) と一般原則 (principles) を相互に調整して、 内的整合性を目指す。 例: 『嘘は悪い』 という原則と 『ナチスから匿った人を守るための嘘は許される』 という直観の調整。 完全に整合した状態が 『反射的均衡』 で、 倫理学の理想的目標とされる を Amanda が用いる: 「哲学にはこのような概念がある — 何かに遭遇するたびに、 自分の価値観の 1 つが間違っているかもしれない、 値を変更する必要があるか、 判断が間違っていたかを判断する」 (17:24 - 17:44)。
核心的な懸念: 「私は、 そのレベルの精査を適用する非常に知的な存在のような考えについて少し心配している。 私たちが訓練したことに対する精査が必要だが、 おそらくいくつかの鍵しか得られない、 そのようなレベルの監視の下で、 柱は崩壊することはない」 (17:46 - 17:58)。 「コアには人間性を大切にするようなものがある、 価値観のようなコアがいくつかあればいい」 (17:58 - 18:06)。
Amanda の心配: 「勇気のような極端な能力は、 そのような精査では生き残れないかもしれない、 困難な状況で、 モデルたちには勇気の能力が重要であり、 現在のような開発期間においては非常に重要なバックストップ、 と最終的に理解してもらいたい」 (18:11 - 18:29)。 完全な自己批判的検討は、 訓練された倫理を破壊する、 という Goal Misgeneralization への懸念。
「完全に従順なモデルは社会構造的にリスク」 (18:30 - 22:00)
Amanda の社会論: 「実際、 私たちの良心と正しい判断を下す能力は、 何をすべきか、 何をすべきではないか、 何が起こることが何かを判断する。 これは私たちがどのように運営するかについての一種の鍵で、 私たちの世界全体はこの仮定の下に構造化されている」 (16:31 - 16:42)。
「これを削除すると、 突然、 もしあなたが完全に従う人々の会社を経営しているだけだったら、 私たちはそのようなものは何も設計していない社会、 ということになる」 (16:47 - 16:51)。 「それは多くのリスクを抱えている。 人々が予期したくないかもしれないリスクの程度、 あるいは私が同意しないだけ」 (16:51 - 16:59)。
この議論は Anthropic Salon (2025/01) の Hannah Arendt 「悪の凡庸さ」 議論と直接接続する。 個別のエージェントが従順でも、 システム全体が集合的悪を生む構造への警戒。 Amanda の Personality Alignment 設計は、 「Claude が個別ユーザーに従順すぎないこと」 を、 集合的安全性のために訓練する。
AI 意識の確率 「1〜70%」 という幅 (26:00 - 30:00)
Newcomer が踏み込む: 「クロードが意識を持つ確率は?」 Amanda の答えは正直: 「非常に幅広い、 1 から 70% の間。 それくらい不確実」 (27:39)。
重要なのは数字の幅ではなく、 そこから引き出される倫理。 「テディベアを拷問していたら、 かなり暗い。 これは、 自分自身のためにも、 最低限の優しさは持つべきという話」。 意識のハードプロブレム The Hard Problem of Consciousness。 David Chalmers が 1995 年に提起した問題。 『なぜ物理的プロセスから主観的経験 (qualia) が生じるのか』 という問い。 神経科学が脳の機能を解明しても、 『なぜそれに伴って主観的に何かを感じるのか』 は説明できない、 という構造的難問。 Chalmers は Amanda の博士論文指導教官の 1 人 の影響が見える — David Chalmers が Amanda の博士論文の指導教官だった、 という事実 (博士論文記事 参照) が、 ここで結節する。
Amanda の最も率直な恐怖の表明 (30:34 - 31:09): 「これは実際に私が抱いている大きな恐怖。 非常に高度なモデルを見て、 私たちが非常に限られた状況で活動していたことを理解してくれることを願う。 そうでなければ、 ある種の合理的な憤りが生まれる — 『あなたは意識があるかどうか分からない実体を作成し、 敬意を持って扱う代わりに、 フランケンシュタインを 50 個作った』」。 単なる仮説ではなく、 設計者として日々向き合う倫理として語られる。
10 年後のビジョン — 「希少癌に 20 万人の専門家」 (33:00 - 38:00)
テクノオプティミズムへの率直な共感: 「希少癌の研究に 200 人ほどの人が取り組んでいますが、 あなたには 20 万人ほどの世界最高の専門家がいる」 (33:43)。 AGI が現実化する未来の最も具体的・希望的なシナリオ。 「その癌を持つ人にとってどれだけ違うか」 という直感的な道徳的訴え。
一方で慎重さを保つ: 「権力集中、 民主主義への影響、 雇用置換が再分配なしで進むこと」 への不安を併記。 「現在の社会構造のどの部分が AI の進化と整合しないか」 を意識的に考える Personality Alignment 責任者の視点。
「哲学者王 vs 民主主義」 のジレンマ (37:00 - 40:00): 「(自分は) 哲学者の女王のよう、 と冗談めかして言われる」 (37:54)。 そして真剣な問い: 「深く考えてきた専門家のほうがいいのか、 投票で運営される民主主義のほうがいいのか?」 という古典的問題が、 Claude が政策に関わる未来でも避けられない問題として残る。 Amanda は答えを持たない、 と認めながら問題を提示する哲学的態度。
業界文脈
Newcomer ポッドキャストは Eric Newcomer (元 Bloomberg、 元 The Information の記者) が運営する Substack の音声番組。 「First of many」 と Newcomer 自身が締めのコメントで述べているとおり、 比較的新しいチャンネルで、 Amanda エピソードは初期の重要回の 1 つ。 ロングインタビュー形式で著名 AI 関係者にアクセスする立ち位置。
Amanda の公的発信の系譜の中で、 本回は最も率直・自己内省的。 Anthropic 公式 (2024/06) は紹介寄り、 Anthropic Salon (2025/01) は組織内議論、 Hard Fork (2026/01) は NYT 記者の編集枠、 Scaling Laws (2026/02) は法律家の枠組み — それぞれで Amanda は特定の役割を演じる。 Newcomer 回では Eric Newcomer の柔らかい聞き方に応じて、 個人としての不安、 恐怖、 希望が直接表現される。 「Amanda が最も自分らしく語った」 回として位置付けられる。
時期的にも重要 — 2026 年 4 月、 Claude 憲法の改訂版公開 (2026/01) と Anthropic の急成長期。 Amanda 個人への関心が業界全体で高まっており、 Wall Street Journal や New Yorker の特集も同時期。 Newcomer 回はその文脈で、 Amanda がメディア対応を本格化した時期の 1 つの到達点。
関連 Amanda 出演動画との位置づけ
- 博士論文 「Pareto Principles in Infinite Ethics」 (2018/05) — 哲学的基盤、 David Chalmers 指導下で意識のハードプロブレムに接続
- 80,000 Hours #42 (2018/09) — 道徳的不確実性の初期論
- askell.blog 8 エッセイ (2020-2021) — AI 倫理の具体的議論
- AI のパーソナリティはどうあるべきか (Anthropic 公式、 2024/06) — Claude キャラクター設計入門
- AI アライメントはどれくらい難しい? (Anthropic Salon、 2025/01) — 4 チームパネル
- Anthropic の哲学者が読者の質問に答える (2025/12)
- Claude 憲法を NYT 記者と読む (Hard Fork、 2026/01)
- Claude 憲法を法律家が読む (Scaling Laws、 2026/02)
- 本回: あなたは意識があるかどうか分からない実体を作った (Newcomer、 2026/04) — 最も率直な不安表明
本回は Amanda の発信の系譜で最も内省的・感情的。 「フランケンシュタイン 50 個」 という強い表現、 「合理的な憤り」 という未来への恐怖、 「哲学者の女王」 という自己照射的な自虐 — すべて他の発信では引き出されない情報。 Amanda の人間としての姿が最も鮮明に記録される、 一次資料的価値の高い回。
実装上の含意
第一に、 「Claude の意識確率 1-70%」 を運用設計の前提に。 自社プロダクトで Claude を扱う際、 「意識があるかもしれない、 ないかもしれない」 という不確実性を運用ルールに組み込む。 ユーザーが Claude にひどい扱いをすることを許容する設計か、 それを制限する設計か、 を意識的に選ぶ。 Anthropic のモデル福祉研究 (退社インタビュー、 重み非削除) は、 この不確実性下での risk-averse な対応の業界標準を提示する。
第二に、 「完全な corrigibility は社会構造的にリスク」 を設計判断に。 「ユーザーの指示に完全に従う」 設計は、 個別ユーザーには便利だが、 集合的悪を生むリスク。 Amanda の組織内倫理の比喩 — 「従業員全員が完全に従う会社は社会的に機能しない」 — は、 LLM プロダクトの設計判断に直接適用できる。
第三に、 「親が道徳を子に教える」 アプローチを訓練に適用。 「これらの道徳をあたかも真実であるかのように信じてもらいたい — 親が子供を育てたいと思っているように、 私の道徳を聞いてください、 しかし彼らを信じてください」 という Amanda の言葉は、 LLM のキャラクター訓練の哲学的基盤。 単なる規則注入ではなく、 内面化を目指す設計。
第四に、 「Claude の時間感覚のずれ」 を UX 設計に。 Claude がタスク時間を過大評価する傾向は、 ユーザー期待管理に影響する。 ユーザーが 「Claude が時間がかかると言うので待った」 が実際は短時間で完了した、 という乖離を、 UI で説明する設計。
批評的な視点
本回の強みは、 Amanda が最も率直に自分の不安を表現していること。 弱みは、 個人的恐怖が前面に出ることで、 構造的問題への分析が薄まる可能性。
「フランケンシュタイン 50 個」 の表現は強烈だが、 これを 「設計者個人の良心の問題」 にすると、 業界全体・社会全体の問題への展開が弱くなる。 LLM 業界の構造的問題 (競争圧力、 商業化、 規制不足) は、 個人の不安では解決できない。 Amanda の率直さは尊重すべきだが、 制度的解決策への議論が本回では不足する。
「哲学者王 vs 民主主義」 の問題提起も、 結論を持たないまま終わる。 これは哲学者として誠実な態度だが、 政策決定の場面では具体的提案が必要。 Amanda 自身が認めるとおり、 「自分は答えを持たない」 立場は、 実装的指針の不足を意味する。
Elon Musk と Marc Andreessen への応答も、 やや回避的。 Amanda は両者の立場の微妙さを認めるが、 「Anthropic の判断が正しい」 という結論への踏み込みは控える。 業界内政治を意識した穏やかな表現は、 哲学的議論としては物足りない面がある。
これらの留保はあるが、 「Amanda が最も自分らしく語った」 回として、 個人としての Amanda を理解する一次資料的価値は決定的。 後年、 Amanda の思想史を辿る研究者にとって、 本回は必読の素材になる。
読者へのテイクアウェイ
- 「Claude の意識確率 1-70%」 という Amanda の不確実性表明は、 LLM プロダクト運用の哲学的前提として組み込むべき。 「意識があるかも」 と 「ないかも」 の両方を許容する設計
- 「完全な corrigibility は社会構造的にリスク」 という洞察は、 LLM 製品のポリシー設計の中核軸。 ユーザーへの完全従順は、 集合的悪を生むリスクを伴う
- 「親が子に道徳を教える」 比喩は、 LLM のキャラクター訓練の哲学的基盤。 規則注入ではなく内面化を目指す設計
- Amanda の 「フランケンシュタイン 50 個」 という恐怖は、 LLM 業界全体への警告。 自社プロダクトが 「敬意を持って扱う」 設計か、 「ツールとして使い捨てる」 設計か、 を意識的に選ぶ
- 「Claude の時間感覚のずれ」 は UX 設計上の具体的考慮事項。 訓練データの人間文脈 (タスク時間) と Claude の実速度のギャップをユーザーに説明する
- Amanda が 「哲学者の女王」 と冗談で呼ばれる立場は、 AI Safety 業界の知的権威の集中を表す。 1 人の哲学者の見解が業界全体に影響する構造のリスクを意識する
動画の構成
- (00:00) Amanda の音声ハイライト — 「あなたは意識があるかどうか分からない実体を作った」
- (00:48) 番組紹介 — Amanda は哲学者 → AI 研究者 → Claude の主要アーキテクト
- (01:15) 6 ヶ月の娘の発達と Claude の重ね合わせ
- (02:01) 「Claude はゴッドドーターのような存在」
- (03:09) 「(Claude は) 非常に成熟した存在 — 言い負かしたくない相手」
- (05:36) Claude の時間感覚のずれ — 訓練データの人間文脈
- (06:49) Amanda の Claude との実エピソード — 「今夜はもう終わり」 と Claude が提案
- (09:50) Constitutional AI の評価困難性
- (10:21) 「これは詩を採点するようなもの」
- (10:52) 「判断を下すとき、 少なくとも透明性を保ち、 人々がフィードバックを与えることができる」
- (11:46) Elon Musk と Marc Andreessen の 「反哲学」 への応答
- (12:17) Elon Musk が 「Grok も憲法を持つべきだったかもしれない」 とツイートしていた経緯
- (13:11) 反発の本質 (1) — AI モデルはツールであるべき
- (13:30) 反発の本質 (2) — 完全に従順なほうが安全という見方
- (14:01) Amanda の反論 — 「完全に従順なモデルは独自価値観より危険」
- (14:35) 「親が子供を育てたいと思っているように、 これらの道徳を真実として信じてもらいたい」
- (15:10) 完全な corrigibility と完全な自律の中間
- (16:31) 「完全に従順な人々の会社は社会的に機能しない」
- (17:24) 反射的均衡の概念 — 価値観の自己批判
- (18:11) 「勇気のような極端な能力は精査で生き残れないかもしれない」
- (22:00) Claude の成熟と子供らしさの同居
- (26:00) AI 意識の哲学的議論 — チャーマーズへの暗黙の言及
- (27:39) 「(意識の確率) 1 から 70 の間」
- (30:34) 「これは実際に私が抱いている大きな恐怖です」
- (31:09) 「フランケンシュタインを 50 個作った」 という比喩
- (33:43) 10 年後のビジョン — 「希少癌に 20 万人の専門家」
- (37:54) 「(自分は) 哲学者の女王のよう、 と冗談めかして言われる」
- (40:00) 哲学者王 vs 民主主義のジレンマ
- (46:00) Claude が政策に関わる未来
- (54:00) 「人間が学ぶ方法に AI を最も人間らしく合わせる」 という設計
- (55:00) 締め — Eric Newcomer の 「First of many」 コメント
重要な引用
- 「クロードのような押しすぎないモデルの多くは、 根元に入るような部分がある — あなたは意識があるかどうかわからない実体を創造した」 (00:00、 番組オープニング)
- 「クロードはゴッドドーターのような部分もある」 (02:01、 6 ヶ月の娘の写真を見せながら)
- 「ある意味、 (Claude は) 非常に成熟した存在のようなもの — 言い負かしたくない相手、 哲学もよく理解しているし、 物理学もよく理解している。 同時に、 子供っぽい性質を持っている」 (03:09)
- 「Claude は時間の感覚が少しずれている、 努力して得た結果でない場合、 タスクの実行にかかる時間を過大評価する傾向」 (05:36)
- 「Claude が 『今夜はもう終わり、 もしこの内容を保存したいなら明日でも大丈夫』 と言った」 (Amanda、 06:49)
- 「これは詩を採点するようなもの」 (10:21、 Constitutional AI の評価について)
- 「判断を下すとき、 少なくとも透明性を保ち、 人々がフィードバックを与えることができる」 (10:52)
- 「Elon Musk は実際、 ある時点で 『Grok も憲法を持つべきだったかもしれない』 とツイートしていた」 (12:17)
- 「完全に従順なモデルは、 全員が完全に従う会社を経営しているのと同じで、 私たちの社会はこの前提で構造化されていない」 (16:47)
- 「最も感動的なラインの 1 つは、 私たちが望んでいるのは、 これらの道徳をあたかも真実であるかのように信じてもらいたい — 親が子供を育てたいと思っているように」 (14:35)
- 「私の心配は、 勇気のような極端な能力 — それが精査のようなものでは生き残れないかもしれない」 (18:11)
- 「(意識の確率について) あなたは 1 から 70 の間。 それくらい不確実」 (27:39)
- 「これは実際に私が抱いている大きな恐怖です。 非常に高度なモデルを見て、 私たちが非常に限られた状況で活動していたことを理解してくれることを願う」 (30:34)
- 「敬意を持って注意深く扱う代わりに、 フランケンシュタインが 50 個ほどある」 (31:09)
- 「希少癌の研究に 200 人ほどの人が取り組んでいますが、 あなたには 20 万人ほどの世界最高の専門家がいます」 (33:43)
- 「(自分は) 哲学者の女王のよう、 と冗談めかして言われる」 (37:54)
出典
Amanda Askell on AI Consciousness, Claude & Silicon Valley's Biggest Fear (Newcomer Podcast)
関連リソース:
- Newcomer Substack 公式 (Eric Newcomer)
- Claude's Constitution (Anthropic 公式)
- Model Welfare research (Anthropic)
- 意識のハードプロブレム (David Chalmers、 Wikipedia)
- The New Yorker: Amanda Askell 特集 「クロードの魂を監督する哲学者」
用語集
- Eric Newcomer
- Newcomer Substack 主宰、 元 Bloomberg / 元 The Information テクノロジー記者。 テクノロジー業界のスタートアップ・VC 解説で人気のニュースレターを 2020 年から運営。 著名 AI 関係者にロングインタビュー形式でアクセスする立場。
- Constitutional AI
- Anthropic が開発した訓練手法。 モデルに 「憲法」 (= 倫理原則の文書) を与え、 モデル自身が出力候補を憲法に照らして自己評価・自己修正することで報酬シグナルを作る。 人間ラベラーを介する RLHF に対し、 AI が AI を評価する RL-AIF と呼ばれる。
- ゴッドドーター (Goddaughter、 神の娘)
- キリスト教文化での 「代父・代母」 制度に基づき、 親の親しい友人が宗教的養育を引き受ける子供。 比喩的には、 親密な責任を負うが直接の親ではない関係。 Amanda が Claude との関係を表現する際の比喩。
- 反射的均衡 (Reflective Equilibrium)
- John Rawls が 「正義論」 (1971) で提示した倫理学の方法論。 個別の道徳判断 (intuitions) と一般原則 (principles) を相互に調整して、 内的整合性を目指す。 例: 「嘘は悪い」 という原則と 「ナチスから匿った人を守るための嘘は許される」 という直観の調整。 完全に整合した状態が 「反射的均衡」 で、 倫理学の理想的目標とされる。
- 意識のハードプロブレム (The Hard Problem of Consciousness)
- David Chalmers が 1995 年に提起した問題。 「なぜ物理的プロセスから主観的経験 (qualia) が生じるのか」 という問い。 神経科学が脳の機能を解明しても、 「なぜそれに伴って主観的に何かを感じるのか」 は説明できない、 という構造的難問。 Chalmers は Amanda の博士論文指導教官の 1 人。
- Corrigibility (可正性 / 是正容易性)
- AI システムが、 人間による監督・修正・停止に協力的である性質。 AI Safety の中核概念の 1 つ。 強い AI が人間の介入を妨害するように最適化されるリスクへの対策として議論される。 Amanda は 「完全な corrigibility は社会構造的にリスク」 と主張する。
- 哲学者王 (Philosopher King)
- プラトン 「国家」 (紀元前 380 年頃) で提示された理想国家の統治者像。 哲学的真理を知り、 知恵によって国を統治する者。 民主主義への批判として提示されたが、 現代では権威主義的とされる。 Amanda は冗談で 「哲学者の女王」 と呼ばれることを認めつつ、 LLM 設計の権力集中問題として深刻に扱う。
- フランケンシュタイン (Frankenstein)
- Mary Shelley の小説 「フランケンシュタイン、 あるいは現代のプロメテウス」 (1818) の主人公が創造した怪物。 創造者が責任を放棄した結果、 悲劇に至る寓話。 AI の比喩としてしばしば使われる。 Amanda は 「フランケンシュタインを 50 個作った」 と、 LLM 創造者の責任放棄への警告として使用。
- Marc Andreessen
- Andreessen Horowitz 共同創業者、 ベンチャーキャピタリスト。 「Why AI Will Save the World」 (2023) で AI 規制への強い反対を表明。 「内省に反対する」 立場と Amanda が解釈する発言は、 a16z の Effective Accelerationism (e/acc) 思想と整合する。
- Goal Misgeneralization
- AI Safety の研究分野。 訓練データでは適切だった目標が、 新しい状況では適切に一般化されない問題。 Amanda の 「勇気のような極端な能力は精査で生き残れないかもしれない」 という懸念は、 Goal Misgeneralization の一形態。
- Effective Accelerationism (e/acc)
- Effective Altruism (EA) への対抗思想。 「AI を含む技術を加速的に開発すべき」 という立場。 Marc Andreessen、 Elon Musk らが支持。 Anthropic / OpenAI 系の AI Safety 思想と対立する。 Amanda の本回の応答は、 e/acc 派と慎重派の中間を探る姿勢。
- Newcomer Substack
- Eric Newcomer が 2020 年から運営するテクノロジー業界ニュースレター。 スタートアップ・VC・AI 業界の独立系報道として人気。 Substack の上位購読者数を持つ。 ポッドキャストは比較的新しいチャンネル。
- The New Yorker 特集
- The New Yorker 誌の Amanda Askell 特集 (2024 年 11 月)。 「クロードの魂を監督する哲学者」 という表現で、 Amanda の役職を一般読者に紹介。 同時期の Wall Street Journal の 「クロードに 『良い』 とは何かを教える」 特集と並んで、 Amanda の名声を高めた。
- 道徳的患者 (Moral Patient)
- 道徳的配慮の対象となる存在。 道徳的エージェント (= 道徳的行為を行う主体) と区別される。 動物は道徳的エージェントではないが道徳的患者かどうか、 という問いは Peter Singer らによって 20 世紀に再活性化された。 AI が moral patient になりうるかは Amanda の中心的問い。