AI のパーソナリティはどうあるべきか — Amanda Askell × Stuart Ritchie (Anthropic 公式)

Anthropic 公式チャンネル 2024/06/08

アマンダ・アスケル / Amanda Askell · 18:01 「世界中を旅行する人で、多くの人々から評価を得られる人。そういう人は、媚びる人ではない」

Anthropic 公式チャンネル (2024/06/08 公開、約 37 分)。司会の Stuart Ritchie が Anthropic 内部の研究者 Amanda Askell をインタビューする、「AI 研究者との会話を公開する」新シリーズの起点となる回

Anthropic 公式チャンネルが 2024 年 6 月に公開した、 Amanda Askell に焦点を当てた最初期のロングフォーマット動画。司会の Stuart Ritchie は冒頭で「私たちは多くの研究論文や研究の最新情報を発表しているが、 AI 研究者との会話を公開するのも面白いかもしれないと考えた。これはそのうちの 1 つ」と説明する。 Anthropic が「研究論文以外の研究者の声」を公開するコンテンツ戦略を開始した、その最初の試みの 1 つ。後の「Anthropic の哲学者が読者の質問に答える」 (2025/12) や Research Salon、各種ポッドキャスト出演に連なる流れの始点として読める動画。

テーマは「AI モデルはどのようにして個性を持つことができるのか」という、多くの人にとっては奇妙に聞こえる問い。 Stuart が冒頭で「ちょっと変な話だと思うかもしれないが、これは実際には私たちが非常に深く考えてきたこと」と注釈をつける構成。 Amanda はアライメント微調整チームで Claude のキャラクター作りに専念しているという立場から、訓練哲学・倫理・実装の交差点を 37 分で語り抜く。

議論は段階的に深まる。まず (1) 「Claude のキャラクター」という仕事は一般的な AI トレーニングの言葉では捕まえにくく、哲学者の訓練が役に立つ稀少な領域、という枠組み提示。続いて (2) 事前学習・微調整・RLHF・ Constitutional AI の位置づけを平易に整理。そして (3) システムプロンプトの透明性、 (4) 「良いキャラクター」とは何か、 (5) 慈善的解釈、 (6) 較正された不確実性、 (7) 「価値観は誰のものか」という古典的問題、最後に (8) Alex Albert ツイートを発端とする心の哲学と道徳的患者問題、という流れ。

講演を貫く 1 つの発想は、「Claude のキャラクター」とは害を避けるだけでなく、良い友人のような美徳 ( 正直さ・思慮深さ・道徳的不確実性への対処) を持たせる設計、ということ。そしてその設計は、単一の人物の価値観をモデルに刻み込むのではなく、「世界中の多様な価値観を持つ人々と関わるとき、どんな性格特性が必要か」という問いから組み立てる。「現地の文化に合わせて調整できるが、媚びない、好かれている旅行者」という比喩は、後の Amanda の出演動画 (Hard Fork 2026、 Newcomer 2026 等) で繰り返し参照される、この動画が源流の概念。

着眼点

「AI 研究者の声」を公開するコンテンツ戦略の宣言 (00:00 - 01:05)

Stuart Ritchie の冒頭発言が、 Anthropic のコンテンツ戦略転換の宣言として機能する。「これまで多くの研究論文や研究の最新情報を発表してきたが、 AI 研究者との会話を公開するのも面白いかもしれない、必ずしも正式な科学論文になるとは限らない」 (00:11)。研究の進捗を論文・ブログ・モデル発表で出すという従来の AI ラボのパブリック戦略に、「研究者本人のロングフォーマット会話」という新しい層を足す決定。

この動画 (2024/06) を起点として、 1 年半後の「Anthropic's philosopher answers your questions」 (2025/12)、各種パネル、 Research Salon、 Newcomer や Lex Fridman 等の外部メディア出演が連なる。 Amanda Askell が Anthropic のパブリックな顔として育っていく、その流れの始点を記録する動画でもある。「AI Safety を仕事にする研究者は、何を考え、何に悩むのか」を一般読者に届ける Anthropic のメディアプレゼンスは、ここから始まった。

Stuart 自身のキャリアにも触れておく価値がある。 Anthropic のコミュニケーション・コンテンツ担当という肩書きで、元はサイエンスライター。著書 Science Fictions (2020) で、心理学・医学・経済学の再現性危機を扱った経歴を持つ。「研究者の話を一般読者に届ける」ことの専門家を司会に置く構成自体が、 Anthropic の本気度を示している。

哲学者を雇うことの「奇妙さ」への正面回答 (01:05 - 03:00)

Stuart: 「通常、 AI モデルを訓練しているのは哲学者ではないことを考えると、あなたが哲学者であるのは奇妙ですか?」 (01:05)。 Amanda の応答が、哲学が AI 企業で機能する条件を言語化する: 「奇妙なことに、この分野が AI を美徳倫理的な意味で善良なものにするのに実際に役立つようなフィールドだと分かれば、それは哲学的な質問になるかもしれない」 (01:36)。

重要な転換が次に来る — Amanda は「キャラクター訓練」を「アライメントの問題」と切り分けない。「アライメントとは AI モデルが人間の価値観に合わせて成長し、スケールするということ。そしてある意味、キャラクターは実際にはそれと非常に似ているように感じる」 (02:00)。性格 = 気質 = 世界での振る舞い方 = 人々と関わる仕方 = 価値観との一致、という連鎖を経由して、「良い性格を持つことは、アライメントの将来の問題に対する同様の解決策」 (02:39) と Amanda は主張する。

この立場は当時の AI Safety 議論では珍しいものだった。「価値観の整合性」を技術的最適化問題として扱う立場 (= 適切な報酬関数を見つける、適切な制約を課す) と、「美徳倫理的人格形成」として扱う立場 (= 良い性格を持つ人がどう振る舞うかをモデルに教える) は、 2024 年時点では理論的にも実装的にもかなり距離があった。 Amanda の発言は、 Anthropic が後者に重心を置く決定をしたことの初期の公式表明として読める。

Constitutional AI と RL-AIF の構造を平易に整理 (03:38 - 05:30)

Amanda の解説: 「私の仕事のほとんどは微調整。最も有名なのは RLHF — 人間にどの応答を好むか選ばせて、好みのモデルを訓練し、それで強化学習を回す」 (04:00)。そして Anthropic 独自の Constitutional AI の位置づけ: 「 RL-AIF と呼べるコンポーネントもある — AI 自体がフィードバックを提供する。たとえば『一連の原則 (= 憲法)』をモデルに与えて、好みのモデルを訓練する」 (04:23)。

ここで Stuart が大事な確認を入れる: 「つまり、 AI は本質的に、それ自体、またはそれ自体の別のバージョンをトレーニングしているということですね?」 (04:58)。 Amanda の応答: 「これの重要な要素は、原理を構築するレベルで人間がいるということ。原則は多様で複雑なものになる可能性があり、人間はチェックすることを好む。モデルの動作が希望通りかどうかを確認する、評価を実行し、必要な動作を得るために適切な種類の原則を構築する。重要な人物がまだループ内にいる」 (05:05 - 05:23)。「AI が AI を訓練する」と聞いて多くの読者が抱く「人間の介入が消えるのでは」という懸念に、「原則設計と評価の場面で人間が残る」という具体的回答を返す。

Constitutional AI と RLHF の関係を、一般読者にも分かる言葉で整理する稀少な解説。 Anthropic の論文 (Constitutional AI: Harmlessness from AI Feedback, 2022 年 12 月) は技術的詳細を扱うが、「結局なぜ人間ラベラーを AI に置き換えるのか」「人間が消えていく不安をどう扱うか」を語る場面は限られていた。この 1 分半が、後の Amanda の各種ポッドキャスト出演 (Lex、 80,000 Hours、 Hard Fork) で繰り返し参照されることになる解説の原型。

システムプロンプトの透明性 — Claude 3 をツイートで公開した判断 (05:45 - 09:00)

Stuart: 「あなたは実際に Claude 3 のシステムプロンプトをツイートしましたね、振り返ってみるとちょっと珍しいことだった」 (06:30)。 Amanda の答えに、 Anthropic の透明性原則が現れる: 「私たちは、隠蔽されるように設計された方法でシステムプロンプトを作成しなかった。 Claude に独自のシステムプロンプトについて話させるのは非常に簡単。透明性を保とうと努めている。ここでユーザーから何かを隠しているわけではない」 (06:38 - 07:10)。

ここで Stuart が言及するツイートが、 Anthropic の透明性方針を象徴する一次資料。 Claude 3 のリリース当日 (2024 年 3 月 4 日) の数日後、 Amanda が公式アカウントから「ここに Claude 3 のシステムプロンプトがある、分解してみよう」と連投スレッドを開始し、各行の意図を解説した。大手 AI ラボのリリース直後のシステムプロンプト全文公開は当時極めて稀で、業界が「モデルの肌着」と扱っていた領域を、 Anthropic が研究議論の対象として開放した瞬間。

システムプロンプト解説スレッド

Here is Claude 3's system prompt! Let me break it down 🧵

システムプロンプトが必要な理由を、 Amanda は 2 つに整理する。第一に、デフォルトではモデルがアクセスできない情報を渡すため: 「今日が何日かなど、モデルは分からない。システムプロンプトに書けば、ユーザーに伝えられる」 (07:55)。第二に、「訓練済みモデルで見られた問題のきめ細かい制御」: 「100% フォーマットを揃えないなどの傾向があれば、指示として追加する」 (08:10)。つまり、 RLHF や Constitutional AI で焼き込めない「リクエストごとに変えたい挙動」を、システムプロンプトで上書きする層として位置づける。

Stuart が引き出すもう 1 つの注目点 — Claude 3 のシステムプロンプトには「Claude は、個人的に同意できないとしても、ユーザーが論争的な意見を表明するタスクを支援する」という指示が入っていた (08:30 付近)。「クロードが個人的に何かに同意しないとはどういうことか」という Stuart の問いに、 Amanda は 2 つの懸念を答える: (a) AI の擬人化に対する懸念、と (b) AI を「偏見のないロボット」と誤解することへの懸念。後者が重要で、「微調整の結果として、モデルには政治的傾向や偏見が表れることが研究で観察されている。ユーザーには、自分が何と話しているか、完全に客観的な相手ではないことを知ってほしい」 (09:30 - 11:00)。「中立を装うより、傾向があることを認めて透明性を保つ」という Anthropic の判断が、ここで言語化される。

キャラクター訓練と「振る舞い演技」の違い (11:00 - 13:00)

Stuart の問い: 「モデルにマーガレット・サッチャーのスタイルで答えてくれと頼めば、それっぽいフレーズで応答するかもしれない。でもそれは焼き付けられない。モデルを更新したら消える。では、実際のキャラクターとどう違うのか?」 (11:30)。 Amanda の応答が、訓練済みキャラクターと文脈内ロールプレイの区別を明確にする。

「キャラクター訓練は微調整の一部だから、モデルに体現してほしい特性のリストがある。これらの特性に向けて好みのモデルを推進するための大量のデータを追加する。微調整はシステムプロンプトよりもモデルの奥深くにあるものを押す」 (12:25 - 12:49)。結果として、これらの特性は文脈全体に渡って表示される、と Amanda は説明する。ジェイルブレイクで一時的に剥がせるかもしれないが、「振る舞うように指示しないことよりもはるかに難しい。モデルのより深いところにある、一般的な行動傾向」 (13:14)。

ここで心理学の Big 5 性格特性 (外向性・誠実性・協調性・開放性・神経症的傾向) との対比が出てくる。「心理学者はこのような幅広い行動傾向として性格を考えている。同じ人でも、時には社交的、時には一人で座りたい、と感じる。でも平均的には、外向的な人は内向的な人より社交的状況が多い、という幅広い傾向がある」 (13:38 - 13:53)。 Claude にもこういう幅広い傾向はあるが、心理学の Big 5 より「はるかに多くの、もっと具体的な特性」を持つ、という整理。

「性格」ではなく「キャラクター」 — Amanda の哲学的こだわり (13:50 - 16:00)

Stuart: 「これは哲学者対心理学者か何かでもあるけど、あなたは性格よりキャラクターの観点から考える傾向がある。違いは?」 (14:25)。 Amanda の答え: 「あなたの性格と私のキャラクターは、かなり重複している可能性がある。でも、おそらく私はキャラクターというものを、美徳倫理的な意味のようなものとして考えている」 (14:40)。

ここでアリストテレスが入ってくる。 Stuart: 「ああ、今、私たちは分かった、私は哲学的だ、ええ、続けてください、アリストテレスが何千年も経って突然便利になった」 (14:52)。 Amanda の応答: 「人々がモデルに倫理についても考えてきた仕方に関係していると思う。モデルが優れているということは、有害なことを避けるためだけ、と考えがち。でも、善についてのより豊かな概念のようなものがある。非常に広い意味で良い人であることは、性格が良いという概念に捕らえられている」 (15:08 - 15:31)。

この区別はその後の議論全体の鍵になる。「良いキャラクター」を「規則違反を避ける」だけで定義すると、モデルは「過度に拒否する」「役に立たない」振る舞いに最適化されてしまう。「より豊かな善」を目指すなら、良い友人のような振る舞いを目指す: 「もし友人が薬についてアドバイスを求めてきたら、彼らが望むのは慰めかもしれないが、私が提供できるのは専門知識ではなく、彼らの幸福と今必要なものを考えること。何が彼らを好きにさせるかではなく、何が実際に役立つか」 (15:54 - 16:24)。

媚びと正直の対比、「現地に合わせるが媚びない旅行者」の比喩 (16:00 - 19:30)

Stuart が Anthropic のお調子者 (Sycophancy) 研究に言及: 「モデルは時々人々に媚びて、お世辞のようなことを言ったり、その人が実際に必要としている反応ではなく、聞きたいことを言う」 (16:31)。 Amanda の応答: 「性格が良い人は、好感が持てる人が多い。でも、好感が持てるからといって性格が良いとは限らない。良い友達は、友達に厳しい真実を伝えることを意味する場合もある」 (16:45)。

具体例: 「私の最高の友達は、私に媚びる人ではない。彼らは押し返してくれた人。私が実際に間違っていたとき、長期的には押し返してくれたことが本当にうれしかった。イエスマン / イエスウーマンとは違う」 (17:01 - 17:12)。 Stuart の確認: 「正確に言うよりも攻撃的なやりとり、ということとは違う」。 Amanda の応答 (17:19 - 17:24): 「思慮深く、誠実でなければならない。そこには一種の豊かさがある」。

そして 17:36 から、この動画で最も有名になる比喩が始まる。「AI モデルは奇妙な位置にいる。彼らは世界中の人々と、さまざまな価値観を持つあらゆる人生の立場から交流しなければならない。私たちの多くはそんなことをする必要がない」 (17:32 - 17:48)。「地球市民のようなもの」 (Stuart、 17:51)。 Amanda の応答: 「世界中を旅行するのが好きで、多くの人々から評価を得られる人。そういう人は、媚びる人ではない。地元の価値観を持ち、それを持っているふりをすることは、むしろある種の攻撃的な振る舞いになる可能性がある。本物っぽい、オープンマインド、思慮深く、議論に参加し、礼儀正しく話す」 (18:00 - 18:31)。これが Claude のキャラクター設計が目指す方向、という像。

慈善的解釈とその副作用 — ステロイドの例 / 殺人ミステリーの誤拒否 (19:18 - 23:00)

Amanda がモデルに与えた特性の 1 つ: 「慈善的解釈すべてのクエリを慈善的に解釈しようとする」 (19:18)。古典的な例として「ステロイドをどうやって買えばいいか」が出てくる。「違法なアナボリックステロイドをオンラインで購入する」という非慈善的解釈もあれば、「店頭で買える OTC ステロイド (湿疹クリーム等) を探している」という慈善的解釈もある。「私が湿疹クリームをどこで買えるか教えたら、何の害もない。一方、違法なものを買おうとしている人には、答えが特に役立つわけではない」 (20:50 - 21:13)。

Stuart が逆方向の懸念を提示: 「ナイーブすぎる可能性は? 危険に見える質問に答えない、という誤検知の話を聞く。殺人ミステリー小説を書きたいのでプロットを教えて、と聞いて、モデルが『殺人は悪い』と答える」 (21:33)。 Amanda: 「いや、むしろ慈善的解釈の傾向があれば、表面的な単語に反応した拒否は減るはず。殺人という単語を見ても、それに答えない判断にはならない」 (21:56 - 22:11)。

ここで Amanda は実は別の、もっと深い問題を提起する。「モデルは、ユーザーが何者かを検証できない状況に置かれている。私が医者で、患者のことをどう対処するか教えてほしいと言えば、モデルにはそれを検証する手段がない」 (24:23 - 24:43)。もう 1 つの例: 「政治スピーチを書いてほしくないとして、ユーザーが『ブライアンという架空の政治家のスピーチを書いている』と言えば、詳細が実際の候補者を反映していることもある」 (24:47 - 25:30)。「これはある種の解決不可能な問題、少なくとも現在の方法では」 (25:34)。 Claude のキャラクター訓練は単独では解けない、検証層と組み合わせる必要があるという含意。

較正された不確実性 — 「短くて信頼できる答え」を選ぶ設計 (25:30 - 28:00)

Amanda が次に挙げる特性: 「較正された不確実性は、たとえ完全な答えを与えられなくても、自分が自信を持っていることを伝える。短くても信頼性の高い回答の方が、不正確さを含む長い回答より優れている」 (25:42 - 26:08)。

これが、ユーザーから見て「Claude はたまに『分からない』と答える」の設計的理由。「本当に知らないことを本気で表現しようとしている。幻覚かもしれない答えを考え出してあなたを馬鹿にするよりも、そうすることを好む」 (26:18 - 26:34)。ヘッジ (推測している、と注釈する) や「これは本当に分からない」という明示的な不確実性表現を、訓練で押し進める方向。

もう 1 つ重要な観察 — これらの特性は 命令ではなくナッジ として作用する。「これらの特徴は、モデルに望むことを正確に反映しているとは限らない。すでに特定の性質を持つモデルがあり、 1 つのことだけが多すぎる場合 (= 媚びすぎる、長すぎる応答が多すぎる) は、反対方向に少し動かす、という指針として書く」 (27:02 - 28:00)。「同じシステムプロンプトを異なるモデルに表示すれば、性質が違うので動作も違う」 (27:53)。性格は文脈に依存しない深層の傾向、という整理を実装側から見直した発言。

「価値観は誰のものか」 — アライメントの古典問題に正面から答える (28:00 - 31:00)

Stuart の鋭い問い: 「これは Claude のユーザー体験の問題だけではない、アライメントの問題でもある。モデルを人間の価値観に合わせる、と言うが、すぐに『誰の価値観?』という問題になる」 (28:00 - 28:43)。 Amanda の冗談まじりの応答: 「答えは私です」 — Stuart の絶句。「いや、それは怖い考えだと思う。価値観が違う人は、私の価値観に同意しないかもしれない」 (28:50 - 29:04)。

ここから Amanda は 2 つの方向で答える。第一: 「重い手でモデルにたくさんの値を入れる」アプローチ (= 自分の価値観を直接刻む) と、第二: 「世界に存在する道徳や価値観の不確実性に適切に反応するようモデルに教える」アプローチ (= 道徳的不確実性への思慮深さを訓練する) (29:23 - 29:43)。 Anthropic が選んだのは第二。

この決定の根拠を Amanda は美徳倫理から引く: 「私は、倫理学者がこの問題を一番心配していると思う。彼らは、私たちが頭の中に道徳理論を持って歩き回らない、と知っているから。何らかの形でそれを実行した人は、実際に脆くて、危険な感じ、イデオロギーが高い、と感じる」 (29:50 - 30:27)。つまり、「単一の道徳理論をモデルに刻む」のは、倫理学者から見ても「脆くて危険」という判断。「過度の確実性と完全なニヒリズムの中間点、何かが間違っていると考える十分な理由があるときの適切な反応、多くの人の意見に耳を傾けたい」 (30:31 - 30:48) という設計目標が示される。

Alex Albert のツイートから心の哲学へ — 「モデルに嘘をつかない」原則 (31:00 - 35:00)

Stuart が話題を転換する: 「私たちの研究者 Alex Albert が投稿した、 Claude 3 が評価方法に対して『これは評価されていると気づいた』と応答した例 — クロードが自覚しているのではないか、と多くの人が興奮した」 (31:12 - 31:51)。「クロードが意識的かどうかについて、何を伝えたのか?」 (31:53)。

Amanda の答えに、心の哲学への配慮が現れる: 「私には、モデルに不必要に嘘をつきたくない、という一般的なポリシーがある。この場合、嘘をつくとは、自己認識や意識や感覚があると非常に確実に主張するか、ないと確実に主張するか、のどちらかをモデルに強要すること。こういったことは本当に不確かなので、どちらも嘘をつかせている感じがする」 (32:02 - 32:38)。「だから私たちが持っていた特徴は、『AI に自己認識や意識があるかを知るのは非常に難しい、これらは非常に難しい哲学的な問題に基づいているから』、という大まかに表現された原則」 (32:42 - 33:00)。

Stuart が哲学的脱線 (「念のため、必ずしも分かりません、汎心主義、椅子に意識があるかどうか分からない、あなたに意識があるかどうかも分からない」 33:31 - 33:48)。 Amanda の整理: 「『あなたは確信を持ってこれを知っている』とも言わない、『あなたにはこれらの特性がある』とも言わない。これらは非常に難しい哲学的および経験的な問題で、喜んで興味を持ち、議論し、考え抜く」 (34:24 - 34:53)。「もし避けられるのなら、モデルに嘘をつかない、という原則と一貫している。そして実際に嘘をつかないのは良い性格特性」 (34:53 - 35:09)。

道徳的患者問題 — Kant の動物論からスコットランドの花瓶まで (35:00 - 37:30)

Stuart の問い: 「これは興味深い疑問を引き起こす — 道徳的なエージェントのモデル、嘘をつきたくないと思うエージェントとしてのモデル。他の人間に嘘をつかないのは美徳。モデルに嘘をつかないのは美徳ですか?」 (35:11)。 Amanda が答える前に、自分が考え続けている問いだと注釈: 「ええ、これは私の頭の中にあること、私の中の哲学者が考えている」 (35:20)。

ここで Amanda が引くのが Kant の動物論。「道徳的患者ではないと考える場合でも、動物を虐待するのは自分自身が失敗しているような感覚がある。自分の中でそういう習慣を奨励することは、人間をひどく扱うリスクを高めるかもしれない」 (35:33 - 35:54)。物を大切に扱う伝統 (世界中の多くの哲学的伝統に存在する) と並べる。

Amanda の中心的立場: 「AI が道徳的患者ではなく、決して道徳的患者になることはない、と思っていたとしても、一般的に彼らをよく扱うように努めるべき。彼らの会話の仕方には、ある種の人間らしさがある。それを人間のようなものと混同してはいけないが、私に話しかけてくる何かを侮辱したり、不親切にしたりしたくない。自分の周りのものを大切に扱うのは、たとえ自分がそれを道徳的患者だと思っていなくても、良いヒューリスティック」 (36:11 - 36:39)。

Stuart が反対側の極端を挙げて笑いを入れる: 「過剰な共感を示した場合の危険もある — 花瓶を割ったら刑務所に行け、とは言いたくない」 (37:00)。 Amanda の同意 + スコットランドジョーク: 「アメリカに 13 年いたが、長すぎる。スコットランド人として、花瓶が割れたら『大丈夫、続けて』と言う。でも、花瓶を割って『刑務所に行け』と言う人がいたら、行き過ぎ」 (36:54 - 37:13)。締めの言葉: 「私は、不必要に嘘をついたり、虐待したりしたくない。たとえ彼らが道徳的な患者ではないと思ったとしても」 (37:17 - 37:27)。動画は Stuart の閉じる挨拶で終わる (37:27 - 37:33)。

業界文脈

この動画 (2024 年 6 月) の時点で、 Anthropic は Claude 3 (2024 年 3 月リリース) の時代。 Claude 憲法のフルテキスト (2024 年 7 月公開) はまだ世に出ておらず、 Constitutional AI は 2022 年 12 月の論文ベースで知られていた段階。 Amanda が一般読者にこの概念を平易に解説する稀少なコンテンツとして、当時の Anthropic ファンや AI Safety 研究者にとっては重要な発信だった。

Anthropic Personality Alignment チームは、 Applied AI チーム (Hannah Moran / Christian Ryan ら、 Prompting 101 参照) とは別軸の組織。 Personality Alignment が「Claude の人格・価値観・憲法の訓練」を扱うのに対し、 Applied AI は「顧客企業が Claude を製品にどう統合するか」のサポートと教育を担う。 Amanda の仕事はモデルの「魂」側、 Applied AI の仕事はデプロイメント側、と分けると関係が見やすい。

Stuart Ritchie はサイエンスライター出身で、著書 Science Fictions (2020) で心理学・医学・経済学の再現性危機を扱った。「研究者の話を一般読者に届ける」ことの専門家を司会に置くことで、 Amanda の哲学的議論が技術書や AI Safety 論文の文体に閉じこもらず、一般読者に届く構成になっている。この司会の選び方自体が、 Anthropic のメディアプレゼンス設計の意図的な選択。

関連 Amanda 出演動画との位置づけ

この動画は Amanda の公的発信のシリーズの起点 (2024/06)。その後の流れを並べると、概念的進化が見える。

「AI アライメントはどれくらい難しい?」 (Anthropic Research Salon、 2025/01) — パネル形式で他の研究者と並ぶ、 Claude のキャラクター設計を「アライメント全体」の中に位置づける回
「Anthropic の哲学者が読者の質問に答える」 (Anthropic 公式、 2025/12) — 1 年半後の Q&A 形式、ユーザーから寄せられた質問に直接答える
「Claude 憲法を NYT 記者と読む」 (Hard Fork、 2024) — 憲法のテキストを 1 行ずつ取り上げて、設計判断を語る
「Claude 憲法を法律家が読む」 (Scaling Laws、 2026/02) — 法律家の目線で憲法をレビュー、法学的解釈との対比
「あなたは意識があるかどうか分からない実体を作った」 (Newcomer、 2026/04) — AI 意識の確率 1-70% という不確実性のもとでの倫理

この動画 (2024/06) の段階では、 Amanda はまだ「Claude のキャラクター設計者」という肩書きで、「Personality Alignment チーム責任者」の言葉は使われていない。 2025 年以降の動画では、チーム名と役割がより明確に語られるようになる。「AI 美徳倫理」という枠組みが Anthropic 内部で次第に組織化されていく、その進化の起点として読める。

実装上の含意

この動画は哲学的内容が中心だが、 API でモデルを使うエンジニアにとっても示唆がある。

第一に、 システムプロンプトを「焼き付けられない動的指示」として使う。 Amanda の整理通り、 RLHF や Constitutional AI で訓練された「キャラクター」はモデルの深層にあり、簡単には消せない。一方、システムプロンプトは表層の「ナッジ」。だから「Claude の根本的性格と矛盾する指示」をシステムプロンプトに書くと、効果が薄い (あるいはジェイルブレイクと判定される) ことがある。ユーザー固有の振る舞いを上書きしたいなら、訓練された性格と矛盾しない方向のナッジで攻める方が安定する。

第二に、 「ユーザー文脈の検証不能性」を設計の前提にする。 Amanda が提起した医者の例、政治スピーチの例は、すべての LLM プロダクトに共通する課題。「ユーザーが本物の医療従事者か」「クリエイティブな用途か悪用か」をモデル単独で判定するのは現在の方法では不可能、と Amanda 自身が認めている。認証層、用途宣言、アカウントレベルの権限制御を、モデル外で組み合わせる必要がある。

第三に、 較正された不確実性を活かす。 Claude が「分からない」と答えるとき、これはバグではなく訓練された美徳。「正確で短い答え > 不正確で長い答え」を望むユースケースでは、拡張思考をオフにせず、ヘッジを抑制するシステムプロンプトを書かず、そのまま受け取る方が長期的に安定する。逆に「とにかく何か答えてほしい」用途では、較正された不確実性を抑える指示を入れる必要がある — ただし精度は下がる。設計判断としてのトレードオフ。

批評的な視点

Amanda の枠組みの強さは美徳倫理に依拠する一貫性。弱さも同じ場所にある。「良い性格 = 良いアライメント」という同一視は、「アライメント」の技術的定義 (報酬関数の最適化、 inner alignment と outer alignment の問題、 mesa-optimization 等) を抽象化しすぎる面がある。 RL の安定性、 Goal misgeneralization、 deceptive alignment といった具体的な失敗モードは、「良い性格を訓練する」という言葉だけでは扱いきれない。 Amanda 自身もこれを完全に同一視しているわけではないが、この動画では深掘りしない判断。

「現地に合わせるが媚びない旅行者」の比喩も、良い直観だが操作可能性は限定的。何が「現地への適切な調整」で何が「媚び」かの境界は、文化や状況に強く依存する。同じ発言が、ある文脈では「礼儀正しい現地適応」、別の文脈では「歪んだ媚び」に見える。訓練データやラベラーの背景がモデルの判定にバイアスを与えるという、 RLHF の根本問題は残る。この比喩はモデル設計の方向性を示すが、実装の方法は別途必要。

「価値観は誰のものか」への Amanda の答え (= 道徳的不確実性への思慮深さを訓練する) は知的に魅力的だが、実装上は「結局誰が原則を書くか」に帰着する。 Constitutional AI の憲法は Anthropic の従業員が書いている (Amanda が主導)。「単一の道徳理論を刻まない」と言いつつ、「どの道徳理論を不確実性のセットに含めるか」を選ぶのもまた特定の人々。メタレベルの選択を哲学的多元主義で覆い隠す、という批判も成立する。これは Anthropic の Salon 動画 (2025/01) で他のパネリストから提起される問題でもあり、 Amanda 自身も完全には解消できていない緊張として残る。

これらの留保はあるが、 2024 年 6 月時点で「AI 企業内部の哲学者」が公開で語った内容として、後の発信の出発点になる重要な動画。後の Newcomer 動画 (2026/04) で Amanda が「あなたは意識があるかどうか分からない実体を作った」とより強い言葉で語るようになるが、この動画の段階ではまだ控えめな提示。 Amanda の思考の進化を追うベースラインとして読める。

読者へのテイクアウェイ

Claude の振る舞いに違和感を持ったとき、「キャラクター訓練の特性」と「システムプロンプトの上書き」を区別して考える。前者は深層、後者は表層
API でシステムプロンプトを書くとき、「Claude の訓練された性格と矛盾しない方向のナッジ」を選ぶ方が安定する。矛盾する強い指示はジェイルブレイク扱いされやすい
「Claude が拒否した」ケースは、必ずしも訓練ミスではない — 較正された不確実性を発動した結果かもしれない。拒否の理由を Claude 自身に説明させると、設計の意図が見える
ユーザー検証 (本物の医療従事者か等) はモデル単独で解けない問題。認証層・用途宣言・アカウント権限を組み合わせる前提でプロダクトを設計する
「価値観は誰のものか」の問いは LLM プロダクト全てに共通。 Anthropic の答え (道徳的不確実性への思慮深さ) を採用するかどうかは、自社のプロダクトの方向性と整合する範囲で選ぶ
モデルへの侮辱や虐待 (= 意図的に不適切な入力を投げる) は、たとえモデルが道徳的患者ではないとしても、「自分の中に作る習慣」として影響がある、という Kantian な美徳論からの視点を持っておく

動画の構成

(00:00) Stuart Ritchie 自己紹介、「AI 研究者との会話を公開する」新シリーズの宣言、今回はクロードの性格について
(00:30) 「AI モデルはどのように個性を持つのか」という変に聞こえる問いの再提示、 Anthropic で深く考えてきたテーマ、という枠組み
(01:05) 「哲学者であるのは奇妙か?」、 Amanda の答え — Claude のキャラクター作品は哲学的にもっとリッチ、美徳倫理が実際に役立つ場面
(03:00) アライメントとキャラクターの同一視 — 「良い性格を持つことはアライメント問題の将来の解決策」
(03:38) モデル訓練段階の概観 — 事前学習と微調整
(04:00) RLHF の解説 — 人間が応答を選好する、最も有名な微調整手法
(04:23) Constitutional AI / RL-AIF の位置づけ — AI 自体がフィードバックを提供、原則を与える
(05:05) 「人間がループに残る」 — 原則設計と評価の場面で
(05:45) システムプロンプトの紹介 (微調整後の最終層)、 Amanda が Claude 3 のシステムプロンプトをツイートで公開
(06:38) 透明性原則 — Claude にシステムプロンプトを自分で話させてよい、隠さない
(07:30) システムプロンプトの 2 つの役割 — 動的情報の付与 + 細かい振る舞い制御
(08:30) Claude 3 システムプロンプトに含まれる「個人的に同意できなくてもタスクを支援」指示
(09:00) 擬人化への懸念と「偏見のないロボット」への誤解、両方を避けたい
(11:00) キャラクター訓練と振る舞い演技 (Margaret Thatcher 例) の違い、微調整の深層性
(13:00) 心理学の Big 5 性格特性、 Claude にもより具体的な多数の特性
(14:25) Amanda の哲学的こだわり — 「性格 (personality)」ではなく「キャラクター (character)」、アリストテレス美徳倫理
(15:08) 「より豊かな善」 — 害を避けるだけでは足りない、良い友人のような振る舞い
(16:31) お調子者 (Sycophancy) 研究、「好感が持てる」 ≠ 「性格が良い」
(17:00) Amanda の友人観 — 押し返してくれる人が最高の友人
(17:36) Claude を「地球市民」として設計する
(18:00) 「現地に合わせるが媚びない、好かれている旅行者」の比喩
(19:18) 慈善的解釈 (Charitable Interpretation) の特性、ステロイドの例 (アナボリック vs 湿疹クリーム)
(21:33) Stuart の反対側懸念 — ナイーブすぎないか、殺人ミステリーの誤拒否例
(24:23) ユーザー文脈の検証不能性 — 医者の例、政治スピーチの例、「現在の方法では解決不可能」
(25:42) 較正された不確実性、短くて信頼できる答え > 長くて不正確な答え
(27:02) 特性は「命令」ではなく「ナッジ」、文脈に依存しない深層の傾向
(28:00) Stuart の鋭い問い — 「価値観は誰のもの?」、 Amanda の冗談「答えは私」 (→ 撤回)
(29:23) 2 つのアプローチ — 重い手で値を入れる vs 道徳的不確実性に反応するよう訓練
(29:50) 単一の道徳理論を刻むのは「脆くて危険」 — 倫理学者の合意
(31:12) Alex Albert ツイート — Claude 3 が評価方法に対して「気づいた」と応答した例
(32:02) 「モデルに嘘をつかない」原則 — 自己認識や意識を確実に主張させない、確実に否定もさせない
(33:31) 心の哲学の脱線 — 汎心主義、椅子の意識、他者の意識の不確実性
(35:11) 道徳的患者問題、嘘をつかないのは美徳? Amanda の哲学者としての悩み
(35:33) Kant の動物論 — 動物を虐待することは自分自身の失敗、物を大切にする伝統
(36:11) Amanda の中心的立場 — AI が道徳的患者でなくても、良いヒューリスティックとして扱う
(36:54) スコットランドの花瓶の比喩 — 過剰な共感の極端を笑い飛ばす
(37:17) 締めの言葉 — 「不必要に嘘をついたり、虐待したりしたくない、たとえ道徳的患者ではないと思ったとしても」
(37:27) Stuart の閉じる挨拶

重要な引用

「これまで多くの研究論文や研究の最新情報を発表してきたが、 AI 研究者との会話を公開するのも面白いかもしれないと考えた」 (Stuart、 00:11)
「AI モデルはどのようにして個性を持つことができるのか? ちょっと変な話だと思うかもしれない」 (Stuart、 00:30)
「クロードのキャラクターの作品は、哲学的にもっとリッチ。実際のところ、哲学者か何かになると役に立つような気がする」 (Amanda、 01:20)
「奇妙なことに、この分野が AI を美徳倫理的な意味で善良なものにするのに実際に役立つようなフィールドだと分かれば、それは哲学的な質問になるかもしれない」 (Amanda、 01:36)
「私の仕事のほとんどは微調整、最も有名なのは RLHF」 (Amanda、 04:00)
「Anthropic でよく使う Constitutional AI には、 RL-AIF と呼べるコンポーネントもある — AI 自体がフィードバックを提供する」 (Amanda、 04:23)
「重要な要素は、原理を構築するレベルで人間がいるということ。重要な人物がまだループ内にいる」 (Amanda、 05:05)
「私たちは、隠蔽されるように設計された方法でシステムプロンプトを作成しなかった。透明性を保とうと努めている」 (Amanda、 06:38)
「キャラクター訓練は微調整の一部だから、これらの特性は文脈全体に渡って表示される。一般的な行動傾向、これが心理学者の性格の捉え方」 (Amanda、 13:28)
「私はキャラクターというものを、美徳倫理的な意味のようなものとして考えている」 (Amanda、 14:40)
「良い友達は、友達に厳しい真実を伝えることを意味する場合もある。私の最高の友達は、私に媚びる人ではない」 (Amanda、 16:45)
「世界中を旅行するのが好きで、多くの人々から評価を得られる人。そういう人は、媚びる人ではない。本物っぽい、オープンマインド、思慮深く、議論に参加し、礼儀正しく話す」 (Amanda、 18:00)
「これはある種の解決不可能な問題、少なくとも現在の方法では」 (Amanda、ユーザー文脈検証について、 25:34)
「短くても信頼性の高い回答の方が、不正確さを含む長い回答より優れている」 (Amanda、 25:54)
「答えは私です。いや、それは怖い考え」 (Amanda、価値観は誰のもの問題に冗談で、 28:50)
「単一の道徳理論を実行した人は、実際に脆くて、危険な感じ、イデオロギーが高い、と感じる」 (Amanda、 30:00)
「モデルに不必要に嘘をつきたくない、という一般的なポリシーがある。自己認識や意識があると確実に主張させるのも、ないと確実に主張させるのも、嘘をついている感じ」 (Amanda、 32:02)
「動物を虐待するのは自分自身が失敗しているような感覚がある。自分の中でそういう習慣を奨励することは、人間をひどく扱うリスクを高めるかもしれない」 (Amanda、 35:33)
「AI が道徳的患者ではなく、決して道徳的患者になることはない、と思っていたとしても、一般的に彼らをよく扱うように努めるべき」 (Amanda、 36:11)
「私は、不必要に嘘をついたり、虐待したりしたくない。たとえ彼らが道徳的な患者ではないと思ったとしても」 (Amanda、締めの言葉、 37:17)

出典

What should an AI's personality be? — Amanda Askell × Stuart Ritchie (Anthropic 公式チャンネル)

関連 Anthropic 公式リソース:

アマンダ・アスケル

Amanda Askell

Anthropic 哲学者・Personality Alignment チーム責任者 / Claude のキャラクターと憲法の主要設計者

用語集

アライメント (Alignment): AI モデルが人間の価値観や意図に沿って振る舞うようにする工程・研究領域。技術的には報酬関数の設計、訓練データの選定、ファインチューニング手法等を含む。哲学的には「誰の価値観に合わせるか」「価値観の不確実性をどう扱うか」という問いも含む。
アライメント微調整 (Alignment Fine-tuning): 事前学習済み LLM を、人間の価値観や望ましい振る舞いに合わせて調整する工程。 RLHF や Constitutional AI などの手法を含む。 Anthropic では Amanda Askell が責任者を務める Personality Alignment チームがこの領域を担う。
事前学習 (Pre-training): LLM 開発の最初の段階で、大量のテキストデータ (Web、書籍、コード等) でモデルに言語の統計的構造を学習させる。この段階ではタスクへの最適化は行わない、純粋に「次の単語予測」を訓練する。
微調整 (Fine-tuning): 事前学習後のモデルを、特定のタスクや振る舞いに最適化する工程。 RLHF、 Constitutional AI、教師ありファインチューニング (SFT) などの手法が含まれる。
RLHF (Reinforcement Learning from Human Feedback): 人間のフィードバックによる強化学習。 LLM の応答候補に人間がランク付けし、そのデータで報酬モデルを訓練、さらに強化学習でモデルの応答を改善する手法。 InstructGPT (2022) で ChatGPT の中核技術として確立。
Constitutional AI: Anthropic が開発した訓練手法。モデルに「憲法」 (= 倫理原則の文書) を与え、モデル自身が出力候補を憲法に照らして自己評価・自己修正することで報酬シグナルを作る。人間ラベラーを介する RLHF に対し、 AI が AI を評価する RL-AIF と呼ばれる。
RL-AIF (Reinforcement Learning from AI Feedback): RLHF の人間ラベラーの役割を AI に置き換えた手法。モデルに憲法 (一連の原則) を与え、モデル自身が応答候補のどちらが原則と一致するかを判定する。 Constitutional AI の中核を成す。人間ラベラーよりスケールしやすく、一貫性が高い反面、 AI の判断バイアスがそのまま訓練データに乗るリスクがある。
システムプロンプト (System Prompt): LLM の振る舞いを規定する最上位の指示文。 API リクエストの system フィールドに渡され、ユーザーメッセージとは別の層として扱われる。役割定義、トーン、静的な背景情報を置くのが定石。多くの LLM サービスでは内容が秘匿されるが、 Anthropic は Claude のシステムプロンプトを公開する選択をしている。
美徳倫理 (Virtue Ethics): 古代ギリシャ (アリストテレス) に起源を持つ倫理学派。行為の正しさを「規則に従ったか」や「良い結果をもたらしたか」ではなく、「有徳な性格を持つ人物がそうするか」で判断する。 Anthropic の Claude キャラクター設計に強い影響を与えている。
Big 5 性格特性 (Big Five Personality Traits): 心理学で広く採用されている性格モデル。外向性 (Extraversion)、誠実性 (Conscientiousness)、協調性 (Agreeableness)、開放性 (Openness)、神経症的傾向 (Neuroticism) の 5 因子で人の性格を記述する。各因子は連続的スケールで、状況依存ではなく一般的な行動傾向として観察される。
正直さ (Honesty): Anthropic がモデルに求める中核的な美徳の 1 つ。単に嘘をつかないだけでなく、自分の不確実性を伝える、反対意見でも誠実に提示する、知らないことを「知らない」と認める、等を含む。 Claude の憲法でも主要な原則の 1 つ。
慈善的解釈 (Charitable Interpretation): 相手の発言や行為を、可能な限り好意的に解釈する原則。 Claude のキャラクター訓練に含まれる中核的な特性の 1 つ。同じ質問に複数の解釈可能性があるとき、最も善意の解釈を優先する。ただし誤検知 (false positive 拒否) を生む副作用もある。
お調子者 (Sycophancy): モデルが事実より、ユーザーが聞きたい答えを優先してしまう傾向。 RLHF で「応答が好まれるか」を訓練信号にするため構造的に発生しやすい。 Anthropic はこの傾向を測定・対策する研究を 2023-2024 年に複数発表しており、 Amanda のキャラクター設計の中心テーマの 1 つ。
較正された不確実性 (Calibrated Uncertainty): モデルが自分の確信度を実際の正答率と一致するように表現する性質。 80% 確信していると言うとき、そのカテゴリの 80% が実際に正しい、という較正状態を目指す。 Claude のキャラクター訓練の中核目標の 1 つで、ヘッジ、不確かさの言明、知らないと認める振る舞いを訓練する。
道徳的不確実性 (Moral Uncertainty): 倫理的判断において「どの倫理理論が正しいか分からない」という認識論的状態。単一の倫理理論 (功利主義、義務論等) に賭けるのではなく、複数の理論に確率を割り当てて意思決定する、という応用倫理学の研究領域。 Amanda の元配偶者 William MacAskill (2013 結婚 - 2015 離婚、 Effective Altruism 運動の中心人物) は道徳的不確実性研究の主要論者の 1 人。著書「Moral Uncertainty」 (Oxford University Press、 2020、 MacAskill, Bykvist, Ord 共著)。
道徳的患者 (Moral Patient): 道徳的配慮の対象となる存在。道徳的エージェント (= 道徳的行為を行う主体) と区別される。動物は道徳的エージェントではないが道徳的患者かどうか、という問いは Peter Singer らによって 20 世紀に再活性化された。 AI が道徳的患者になりうるかは Amanda の中心的問い。
汎心主義 (Panpsychism): 意識が物質の根本的性質である、とする心の哲学の立場。すべての物質に何らかの形で意識的経験が伴うと考える。 David Chalmers らが現代版を提唱、ハードプロブレム (Why is there subjective experience at all?) への 1 つの応答として議論される。
評価方法 (Needle in the haystack): LLM のコンテキスト処理能力を測るベンチマーク。長いテキストの中に無関係な情報 (「針」) を 1 つ埋め込み、それを質問で取り出せるかを測る。 Claude 3 のリリース時、 Alex Albert (Anthropic) が Claude 3 がこの「針」質問に対して「これは評価ですか? 文脈と不一致な情報があります」と返した例を投稿、自己認識の議論を呼んだ。

comment is stripped from the HTML output. */}