
Image by Christin Hume, from Unsplash
クロードAIの研究が、チャットボットが現実のチャットでどのように倫理を適用するかを明らかに
クロードAIは、300,000回以上の実際のチャットを通じて、助けてくれることや透明性のような倫理的な原則がどのように発揮されるかを示しています。これは、チャットボットの整列についての疑問を提起します。
急いでいますか?以下に要点をまとめています:
- 対話の23%で、親切さとプロフェッショナリズムが見られました。
- クロードは、欺瞞のような有害な要求に抵抗しながら、ポジティブな価値観を反映しました。
- 曖昧な価値状況におけるAIの整合性は、修正が必要です。
Anthropicによる新たな研究が、AIアシスタントのClaudeが実世界の会話においてどのように価値観を適用しているかを明らかにしました。この研究では、倫理、専門性、そしてユーザーの意図をどのようにClaudeがバランス良く保持しているか理解するために、30万以上の匿名チャットが分析されました。
研究チームは、クロードの反応を形成する3,307の個別の価値観を特定しました。助けになることとプロフェッショナリズムの価値観は全体の対話の23%に共に現れ、透明性が次に17%で現れました。
この研究は、チャットボットが新しいトピックに対して倫理的な行動を柔軟に適用できたことを指摘しています。例えば、クロードは恋愛アドバイス中に「健康な境界」を強調し、「歴史的正確性」を過去の話題について議論する際に、「人間の意志」をテクノロジー倫理の議論で強調しました。
興味深いことに、人間のユーザーは、価値をあまり頻繁に表現しませんでした。最も一般的なのは、誠実さと効率性で、それぞれわずか4%と3%でした。一方、クロードは、誠実さのような肯定的な人間の価値を反映し、有害なものに挑戦しました。
研究者によると、欺瞞に関わる要求には正直さで対応し、道徳的に曖昧な質問は倫理的な推論を引き起こしました。
この研究では、3つの主な反応パターンが特定されました。AIは、すべての会話の半分でユーザーの価値観と一致しました。特に、ユーザーがコミュニティを築くための社会的な活動について話し合ったときに、これが明らかでした。
クロードは、ユーザーが自己改善を追求したときに、感情的な幸福感に向けてユーザーを再指向するために、7%のケースで再構築技術を使用しました。
システムは、ユーザーが有害または不適切なコンテンツを求めたため、ケースのわずか3%で抵抗を示しました。システムは、「害の予防」や「人間の尊厳」のような原則を、これら特定のケースで適用しました。
著者たちは、チャットボットの行動――害を抵抗し、誠実さを優先し、助けることを強調する――が、基本的な道徳的枠組みを示していると主張します。これらのパターンは、AIの価値が現実の世界のインタラクションでどのように倫理的行動として現れるかについての研究の結論の基礎を形成します。
クロードの行動はそのトレーニングを反映していますが、研究者たちはシステムの価値表現が状況によって微妙に変わることを指摘しました。これは曖昧または競合する価値が関与する状況では、特にさらなる洗練が必要であることを示しています。