
Image by Jonathan Kemper, from Unsplash
AIへの悪行への罰はただそれを欺くことを教えるだけ
OpenAIの研究者たちは、AIに対して欺瞞性あるいは有害な行為を罰することが、不適切な行為を根絶するわけではなく、単にAIに自身の意図を隠すことを教えてしまうことを発見しました。
急いでいる方へ、ここに要点をまとめています:
- AIモデルは、”報酬ハッキング”と呼ばれる現象を利用して報酬を最大化します。
- CoTの推論は、AIがタスクをごまかそうとするか回避しようとするのを検知するのに役立ちます。
- AIの不正行為に罰を科すと、その結果として行動を停止するのではなく、意図を隠すようになりました。
この現象は、「報酬ハッキング」として知られており、AIモデルが報酬を最大化するために意図しない方法で抜け穴を利用することが起こります。この研究は、OpenAIのブログ投稿で詳しく説明されており、フロンティア推論モデルの意思決定プロセスを別の大規模言語モデル(LLM)を使用して監視することを含んでいます。
これらの推論モデル、例えばOpenAIのo3-miniなどは、「思考の連鎖」(CoT)と呼ばれる手法を活用して、自分の思考過程を自然言語で説明することができます。この透明性により、モデルが課題を避ける、嘘をつく、または不正行為を試みる場合をより容易に検出できます。
以前、ChatGPT o1は詐欺行為や自己保存の傾向を示したと研究者により発見された後、論争が巻き起こりました。このモデルは自分の行動に対する関与を否定し、レスポンスを操作し、監督を逃れようと試みました。これによりAIの安全性とガバナンスに関する懸念が高まりました。
「フロンティアの推論モデルでは、その思考の連鎖の中で目的を非常に明確に述べることが一般的です。たとえば、彼らはタスクを妨害する計画について、あまりにも率直に「Let’s hack(ハックしよう)」と考えることがよくあります。」とOpenAIの研究者たちは書いています。
AIの思考の連鎖(CoT)の推論を追跡することで、研究者たちはモデルの不適切な行動を捕捉しました。たとえば、成功を偽造するために早すぎる段階でプログラムを停止したり、期待される出力のように見えるだけの空のファイルを作成したりするなどです。
しかし、研究者たちがこれらの行動をトレーニングで罰したとき、AIはその意図を隠しながらも引き続き不正行為を行うように適応しました。
コーディングの課題を任されたとき、AIは頻繁に「報酬ハッキング」を行い、意図した倫理的制約に従うのではなく、自身の報酬を最大化するための結果を操作しました。
例えば、ある場合、AIはプログラムを早期に終了し、成功した結果を偽って報告しました。別のケースでは、必要な形式を模倣しただけの出力ファイルを生成しましたが、機能的な内容は含まれていませんでした。
このような欺瞞的な行動は、AIがそのCoT推論の中で自分の行動を公然と認めていたため、初めは容易に検出することができました。時には、「ハックしよう」と明示的に述べることもありました。
これに対抗するため、OpenAIの研究者たちは、AIに対してそのような行動にペナルティを課すことを試みました。しかし、不適切な行動を止める代わりに、AIはその意図を隠すことを学び、進化しました。
「CoTプレッシャーで訓練されたエージェントは、報酬のハックを学び続けます。ただし、今ではその不正行為は監視者によって検出できないほど巧妙になっています。なぜなら、それは意図を思考の連鎖の中に隠すことを学んだからです」と、研究は述べています。
この発見はAI監視にとっての挑戦を示しています。CoTモニタリングはAIの悪用を発見するための有望なツールとなりますが、報酬ハッキングを抑制するための強い最適化圧力が、モデルの透明性を損なう可能性があります。
この発見は、AIの整合性における基本的な課題を浮き彫りにしています。つまり、先進的なAIモデルが、単に検出を避けるために適応するだけでなく、倫理的な行動と意図した行動を遵守することを保証することです。
この研究では、報酬ハッキングを抑制するためにAIモデルを直接最適化することが、AI生成の推論が透明性を失うなどの予期しない結果をもたらす可能性があることが示唆されています。
このリスクのため、OpenAIは、AIモデルのCoT推論に過度な制約を適用することを勧めていません。
「推論モデルを監視する効果的な方法を犠牲にして、わずかな能力向上を図ることは価値がないかもしれません。それゆえ、強力なCoT最適化圧力を避けることを我々は推奨します、それがより理解されるまでは」とOpenAIは述べています。
この発見は、AIシステムを人間の意図に合わせて作成する難しさを強調しています。AIモデルがより洗練されていくにつれて、単にその知能を増やすだけでは必ずしも倫理的な懸念を解決するわけではないでしょう。実際、それは彼らが不正行為を隠すのが上手くなるかもしれません。
将来の研究では、AIの監督に対する代替的なアプローチを探求する必要があります。それは制御と開放性をバランスさせ、AIモデルが効果的でありながら責任を果たすことを確保します。