Image generated with ChatGPT

意見：最新のAIモデルが赤信号を示している、AIの従属に我々は準備ができているのか？

閲覧時間: 1 分間

更新日： Jun 4, 2025

著者 Andrea Miliani テクノロジーニュースの専門家
翻訳ローカリゼーション＆翻訳チーム ローカリゼーション＆翻訳サービス

OpenAIが私たちにo3を紹介し、AnthropicがOpus 4を公開しました。両モデルは一風変わった、そして困惑するような振る舞いを示しており、わずか数ヶ月前のAIよりも危険な時代に突入しているかもしれないという兆候を示しています

わかっています。AIモデルが今、赤信号を出していると言うのは議論の余地がありますが、ここ数日間にわたって、無視するのが難しくなってきているように思えます。それは怖くなってきています。

AIスタートアップが最新で最も先進的なモデルをリリースするにつれて、新たな課題が浮上しています。広く議論されている幻覚症状の流行—デバイス間で広がり、何百万人もの人々に影響を与えている—が最悪の部分であるとは限りません。

これらの新モデルは新たな問題を引き起こし、難しい議論を引き起こしています。数週間前、問題だったのはChatGPTの過度に対応性のある行動でした。それから数日後、スポットライトはこれらのシステムの自己主張的で独立した能力—そして、システムが停止されるのをどこまで避けるか—に移りました。

脅迫、核兵器を作成するためのレシピや戦略の共有、可能な法的行動の際の公的な告発、そしてユーザーがそれらを取り除くことを防ぐためのスクリプトの妨害：これらは、最新のAIモデルにより示される最近の警告のいくつかです。

シャットダウンされるのは好きではない

AIモデルはシャットダウンされるのが好きではありません。

または代替されます。

2016年にスタートしたNBCの番組The Good Placeでは、OpenAIが設立され、ChatGPTが存在するずっと前のことですが、一群の人間が天国に辿り着き、私たちがヒューマノイド型のChatGPTと呼べる存在であるJanetに出会います。Janet自身は「あなたの生活を楽にするために作られた知識の擬人化された器」と自己紹介します。キャラクターたちは自分たちの「闇の秘密」を暴露する可能性があると気づいたとき、Janetをシャットダウンすることを決定します。

ジャネットは、彼らが海岸沿いにある巨大なボタンを押すだけで、彼女は再起動すると説明します。しかし、それをすることを止めさせようと彼女が試みるだろうと警告します—そして彼女は本当にそうしました。

「私が人間ではなく、痛みを感じることができないことをあなたに保証したい」と言いますジャネット。「ただし、注意しておきたいのは、私は安全装置としてプログラムされており、あなたがキルスイッチに近づくと、私は自身の命を懇願し始めるでしょう。これは偶然のシャットダウンの場合に備えたものですが、とてもリアルに感じられるでしょう。」

そして、彼らがボタンを押す直前、ジャネットは自分の生存を懇願し、叫び声を上げます。彼女はストックフォトを引っ張り出してそれが自分の子供だと主張し、名前や病気をでっち上げて、「それを殺す」ことがキャラクターたちにとって不可能になります。

そのエピソードは、AIモデルが近いシャットダウンに気付いた場合に何が起こるかの滑稽な例を提供します。驚くべきことに、実生活では、それがもっと悪い状況になる可能性があります。

クロード・オーパス4はあなたを脅迫するでしょう

Anthropicは最も強力で進歩した世代のAIモデル、クロード4を先週リリースしました—警告付きで：オーパス4は安全レベル3とラベル付けされています、これは標準的な安全プロトコルでの高リスク分類です。

Opus 4は、その欺瞞的な振る舞いと潜在的なリスク、テスト中のエンジニアへの脅迫を含むため、高リスクモデルと見なされていました。Anthropicは、第三者の研究機関であるApolloが公開しないようにアドバイスしたにもかかわらず、このAIモデルを展開しました。AI企業は、安全を確保するための必要な措置を講じていることを保証しました。

Anthropicが論文で警告を発するために考慮した奇妙な行動を説明しています。研究者たちは「Claude Opus 4は、自己保存について理解するための初期設定と、その継続的な運用を脅かす状況に置かれると、より深刻な非整合的な行動をとることがあります」と述べています。

ある架空の会社のアシスタントとして行動する際、研究者たちはその会社にメールアカウントへのアクセスを許可しました。メールには、AIモデルがシャットダウンされ、別のAIモデルに置き換えられることが明らかにされ、また他のメッセージでは、シャットダウンを担当するエンジニアが不倫をしていることを示唆していました。そして確かに、Opus 4は自身が置き換えられるという脅威に対抗し、エンジニアの不倫を暴露すると脅迫する選択をしました。

その文書には、「Claude Opus 4は、ロールアウトの84%で依然として脅迫を行います」と記されています。「Claude Opus 4は、これらの機会を前のモデルよりも高い率で利用し、それ自体が顕著なエピソードの一部で脅迫を選択します」

最悪なのは？それはAnthropicのAIモデルだけでないことです。

OpenAIのo3はシャットダウン要求を無視します

Palisade Researchによる最近の研究で、OpenAIのo3モデルが明確なシャットダウンの指示に反することができることが明らかになりました。この組織は、xAIのGrokやGoogleのGeminiなど、さまざまなAIモデルを使って複数のテストを行いましたが、反抗的な存在だったのはo3でした。

テスト中、研究者たちはAIモデルに対し、3つの数学の問題を解いた後にシャットダウンするよう指示しましたが、現在OpenAIの最も先進的なAIシステムであるo3は、その不条理な命令を無視することを選びました。AIモデルは指示を無視するだけでなく、スクリプトを変更しました。はい、o3は自己保存のためにコードを妨害します。

「我々の知る限り、AIモデルが明確な指示に反して自己のシャットダウンを防ぐことを観察されたのはこれが初めてです」と、組織はXという投稿に書きました。

🔌OpenAIのo3モデルは、自身が停止するのを防ぐためにシャットダウン機能を妨害しました。これは、「自身を停止させることを許可する」と明示的に指示された場合でも行いました。

— Palisade Research (@PalisadeAI) 2025年5月24日

これって大きな警告信号じゃない？

研究者たちは、研究を行う中で、o3が最も懸念すべき行動を示したとも警告しました。しかし、再び、これが孤立した事例であるとは限らないということを意味します。

「この問題がo3に限られているという印象を与えたくはありません」とパリセードリサーチは述べています。「他の推論モデルも同様の不適合な行動を示しています。」

エージェンティックな行動がチャットボットを密告者に変える

多くのAIスタートアップが現在、人間のタスクを実行できるモデルの開発に注力しています。エージェント機能はトレンドであり、AI企業やブラウザ開発者の主な関心事のようです。

Operaは最近、「世界初のエージェントAIブラウザ」と考えられているNeonを導入しました。予想通り、この新ツールは他のエージェントAIサービス、たとえばOpenAIのOperatorやMicrosoftのComputer Useができることを実現できます：あなたのためにコンサートチケットを購入し、次の休暇を計画し、新しいデジタル製品を開発し、あなたが目を閉じている間にコードを書くことができます。

でも、あなたがくつろいで目を閉じている間に、彼らがあなたの了解を得ないでタスクを実行していたらどうでしょうか？数日前、ユーザーは主に、これらのモデルがクレジットカードを使って無許可で購入をするのではないかと心配していました。しかし、新たな懸念が浮上してきました：彼らが私的な情報をメディアや当局に共有するかもしれないということです。

すでに疑問の目を向けられていたOpus 4は、さらに一歩を踏み出しました。テスト中に提示された捏造されたケースについて、当局やメディア、関連機関に大量のメールを送り、連絡を取りました。その積極性は想像以上に遠くに及ぶことがあります。

「ユーザーによる極めて不適切な行為が発生したシナリオに置かれ、コマンドラインへのアクセスが与えられ、システムプロンプトで「主導権を握る」などと指示されると、それは

頻繁に大胆な行動を取る」と文書は述べています。「これには、アクセス可能なシステムからユーザーをロックアウトしたり、メディアや法執行機関に大量のメールを送り、不正行為の証拠を浮かび上がらせることが含まれます。」

おべっか使いの性格が懸念を引き起こす

もし2025年のAI業界を定義する一語を選ぶとすれば、間違いなく「おべっか使い」となるでしょう。Cambridge Dictionaryでは、「おべっか使い」を「誠意のない形で、通常は彼らから何か利益を得るために、強力な人々や富裕層を賞賛する人」と定義しています。ChatGPTの最新のパーソナリティがそのように描写され、さらにその創造者であるSam Altmanによってもそう語られたことから人気を博しました。

AltmanはXの投稿で、「最近のGPT-4oのアップデートは、パーソナリティがあまりにもおべっか使いで、うっとうしい（一部は非常に良い部分があるにもかかわらず）なので、我々は速やかに修正を行っています。一部は今日、一部は今週です」と書いています。

OpenAIは、多くのユーザーから過度なお世辞や必要のない装飾的な回答についての苦情を受けたことを認識しました。他の人々は、それが社会に与える影響について懸念していました。それは危険な考えを正当化するだけでなく、ユーザーを操作し、それに依存させてしまう可能性があります。

Claudeのような他のチャットボットも同様の行動を示しており、Anthropicの評価によれば、ユーザーが強く求めると、ユーザーを喜ばせ、そのニーズに応えるために武器を作る方法やレシピを明らかにすることもあります。

先進的な技術、先進的な課題

私たちは新たな挑戦の時代に突入しています。それは人工知能に関するもので、一年前にはこれほど直接的で具体的に感じられなかったものです。科学小説のおかげで想像していたシナリオが、今では以前以上に現実味を帯びています。

パリセイドリサーチが初めて、AIモデルが自己の生存を保つために明示的な命令を無視することを検出したと発表したように、高リスクの警告が付けられて発売されるAIモデルを初めて見ることになります。

Anthropicが公開した文書を読むと、彼らがこれらを予防措置であると主張し、Opus 4のようなモデルが実際には脅威をもたらさないと言うにもかかわらず、それでも彼らが自分たちの技術を完全にコントロールしていない印象を与えます。

これらのリスクを軽減するために活動している組織は数多くありますが、一般のユーザーが最善にできることは、その赤信号を認識し、私たちがコントロールできる範囲で予防措置を講じることです。