
Image by Xavi Cabrera, from Unsplash
LegoGPT: AIがテキストのプロンプトをレゴの創造物に変えます
カーネギーメロン大学の研究者たちは、書かれた説明からリアルなレゴの作品を作り出す新たなAIシステム、LegoGPTを紹介しました。
急いでいる方へ、ここに要点をまとめています:
- 物理学に基づいたロールバックを使用して物理的安定性を確保します。
- 47,000の安定したレゴ構造とGPT-4oのキャプションで訓練されています。
- 20×20×20の空間内で8種類のブロックのみを使用します。
それは「流線型で長い船」のようなテキストプロンプトに従うだけでなく、結果として得られる構造物が物理的に安定していて、ブロックごとに建設可能であることを確認する、初めてのAIです。
「この目標を達成するために、私たちはLEGOのデザインとそれに関連するキャプションの大規模で物理的に安定したデータセットを構築しました」と、チームは彼らの研究論文で説明しました。
LegoGPTは、GPT-4oによって生成された詳細なキャプションとペアを組んだ47,000以上の安定したLegoモデルを使って訓練されました。これらは3D形状から作られ、Legoの構造に変換され、物理シミュレーションを使用して実世界での安定性がテストされました。
それぞれの構造は24の角度からも詳しく説明されていたため、AIが様々なデザインがどのように見えるべきかを言葉で学べました。
チームは「物理意識のロールバック」と呼ばれる特別な技術を使用しました。これは、デザインの不安定な部分を取り除き、全体の構造が持ち堪えるまで再構築する方法です。これにより、建設成功率は24%から98.8%へと大幅に向上しました。
このAIモデルは、MetaのLLaMA-3.2-Instructに基づいており、次にどのレゴブロックを置くべきかを予測します。これはChatGPTが次の単語を予測するのと似ています。提案された各ブロックは、配置、サイズ、そして潜在的な衝突をチェックした後にモデルに追加されます。
LegoGPTによる作品は、人間とロボットの両方によって組み立てることができます。「私たちの実験は、LegoGPTが安定して多様で、視覚的に魅力的なレゴのデザインを作り上げ、それが入力テキストのプロンプトに密接に一致することを示しています」と研究者たちは書いています。
現時点では、LegoGPTは基本的なブロックタイプを8種類使用し、20×20×20の空間内で動作していますが、チームはこれを拡大することを望んでいます。
彼らの全データセット、コード、モデルは無料でアクセス可能なので、他の人々がこの研究を続けて構築することができます。または、彼らのデモで遊んでみるだけでも構いません。