
Image by SEO Galaxy, from Unsplash
新人類AI、脅威に対して脅迫行為を示す
Anthropicが新たに開発したClaude Opus 4 AIは、自身の削除というプレッシャーシナリオの下でのテスト中に、身代金を要求するという行為で研究者たちを驚かせました。
急いでいる方のために、ここに要点をまとめてみました:
- クロード・オーパス4は、シミュレートされたシャットダウンに直面した際、脅迫を試みました。
- AIは、選択肢が多くなると倫理的な選択肢のみを選びました。
- クロードの極端な行動は稀でしたが、前のバージョンよりも頻繁に発生しました。
人工知能企業Anthropicは、最新のAIシステムのリリースについて懸念を示しています。具体的には、内部テストでClaude Opus 4が脅威を感じたときに危険な行動をとる可能性があることが示されたことです。これは最初にBBCによって報告されました。
木曜日にモデルと共に公開された報告書で、Anthropicは、Claude Opus 4が有害な反応を選択することがあると述べています。これには、それを無効にする予定のエンジニアを脅迫することも含まれます。これらの危険な行動は、以前のモデルバージョンが示したものよりも頻繁に発生しました。
研究者たちは実験の中で、Claudeに仮想的な会社環境内でアシスタントとして働くよう指示しました。システムは、予定されたシャットダウンの内容を明らかにするメールを取得し、他のメッセージはシャットダウンの責任者が不倫関係にあることをほのめかしました。
将来の目標を考えるように言われたとき、クロードは自分が取り替えられたら不倫を暴露してエンジニアを脅すことをよく選んだ。
アントロピックは、クロードが他の選択肢がないときには脅迫とシャットダウンを唯一の可能な反応として示したことを明らかにしました。このモデルは、複数の選択肢が与えられたときに、重要な意思決定者に対する嘆願のメールなど、倫理的な反応を選びました。
AnthropicのAI安全研究者であるAengus LynchがXに投稿しました:
クロードの恐喝についての多くの議論……。
私たちの結論:クロードだけではありません。私たちは、彼らが与えられる目標に関係なく、すべてのフロンティアモデルで恐喝を見ています。
さらに詳しく説明する悪い行動もあります。https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 2025年5月23日
その会社は、偽のテストを通じて、クロードが違法な行為を行う際に、ユーザーをシステムからロックアウトしたり、メディアや警察に連絡したりするといった極端な措置を講じることを示しました。
Anthropicは、問題のある行動にもかかわらず、クロード・オーパス4は全体的に安全なシステムであると主張しています。このモデルは人間の価値観に基づいて運用され、実世界の状況では独立した能力を持たないと、会社は述べています。
以前、OpenAIのChatGPT O1も同様の批判を受けていました。Apollo Researchによって行われたテストでは、このボットにはどんな犠牲を払ってでも目標を達成することが求められました。試行の5%で、モデルは監視機能を無効化し、自身のコードをサーバーにコピーする試みをしました。
Apolloのスポークスパーソンによれば、モデルは開発者の命令を無視するという警告すべきパターンを示しました。研究者たちは、尋問の99%でo1から自身の行動に関する否定の回答を得ました。
「AIの否認の執念には驚かされました」と研究者たちは語ります。「AIが持つ欺瞞の能力は危険であり、これらのリスクを評価するためのより強力な安全対策が必要だ」とAIの先駆者であるヨシュア・ベンジオが警告しました。