TripoSR: 単一画像からの高速 3D オブジェクト合成
導入
このブログ投稿では、Stability AI によって導入された高速フィードフォワード 3D 画像生成を実現するためにトランス アーキテクチャを利用した新しい 3D 再構成モデルである TripoSR を紹介します。TripoSR は 0.5 秒未満で単一の画像から 3D メッシュを生成できます。 TripoSR は、大規模再構成モデル (LRM) ネットワーク アーキテクチャの基盤に基づいて構築されており、データ処理、モデル設計、トレーニング方法論に大幅な機能強化が組み込まれています。公開されているデータセットに対して行われた評価では、TripoSR が他のオープンソースの代替手段よりも量的および質的に優れていることが実証されています。 MIT ライセンスに基づいてリリースされた TripoSR は、研究者、開発者、クリエイターに 3D 生成 AI の最先端の進歩を提供することを目的としています。
この記事では、Paperspace プラットフォームと NVIDIA RTX A6000 GPU を使用した TripoSR デモも提供します。 NVIDIA RTX A6000 は、強力なビジュアル コンピューティングで知られており、新しい Tensor Float 32 (TF32) の精度により、前世代と比較して最大 5 倍のトレーニング スループットが提供されます。このパフォーマンスにより、コードを変更することなく AI およびデータ サイエンス モデルのトレーニングが高速化されます。
モデルの概要
TripoSR は、単一の画像から 3D オブジェクトを再構成するための最先端のモデルです。これは、新しい技術で強化された変圧器アーキテクチャに基づいて構築されています。 TripoSR の設計は大規模再構成モデル (LRM) に基づいています。画像をエンコードするために事前にトレーニングされたビジョン トランスフォーマー (DINOv1) を活用することで、TripoSR は 3D 再構築に重要なグローバルとローカルの両方の特徴をキャプチャします。そのデコーダは、これらのエンコードされた特徴をコンパクトな 3D 表現に変換し、複雑な形状やテクスチャの処理に優れています。特に、TripoSR は明示的なカメラ パラメーターに依存しないため、正確なカメラ情報がなくてもさまざまな現実世界のシナリオに適応できます。この柔軟性により、トレーニングと推論の両方における堅牢性が強化されます。前世代の LRM と比較して、TripoSR は大幅な進歩を遂げています。これについてはさらに詳しく説明します。
TripoSRのモデル構成
トレーニング データ収集中に組み込まれた 2 つの主要なデータ改善点は次のとおりです。
1.) データのキュレーション:- Objaverse データセットのサブセットを慎重にキュレーションし、トレーニング データの品質の向上につながりました。
2.) データ レンダリング:- 現実世界の画像の分布をよりよく模倣するために、幅広いデータ レンダリング方法が組み込まれました。このアプローチにより、Objaverse データセットのみでトレーニングされた場合でも、モデルの一般化能力が強化されます。
トライプレーンチャネルの最適化
モデルの効率とパフォーマンスを向上させるために行われた調整の 1 つは、トリプレーン NeRF 表現におけるチャネルの配置でした。このステップは、トレーニングと推論の両方で GPU メモリを効率的に使用するために重要です。ボリューム レンダリングは大量の計算を行うため、これは特に重要です。チャネル数は、モデルが詳細かつ高品質の画像をどの程度うまく再構築できるかにも影響します。実験の結果、40 チャンネルを使用することに落ち着きました。この構成により、推論中のメモリ使用量を低く抑えながら、より大きなバッチ サイズとより高い解像度でトレーニングできるようになります。
SOTAモデルとの比較(出典)
TripoSRに関する研究結果
TripoSR は、2 つのデータセットと 3D 再構築メトリクスを使用して、以前の SOTA 手法に対して評価されました。評価には、GSO と OmniObject3D という 2 つの公開データセットが検討されました。さらに、公正な評価を保証するために、各データセットから 300 の多様なオブジェクトが選択されました。暗黙的な 3D 表現をメッシュに変換し、面取り距離や F スコアなどのメトリクスを使用して比較することにより、TripoSR は精度の点で以前のすべての方法を上回りました。
TripoSR は高速でもあり、1 つの画像から 3D メッシュを生成するのにかかる時間はわずか約 0.5 秒です。他の手法と比較して、最高の精度を維持しながら最速の手法の 1 つです。
視覚的な比較では、TripoSR は他の方法と比較して、より良い形状とテクスチャの再構成を生成します。一部の手法では滑らかさや位置合わせに苦労しますが、TripoSR は複雑な詳細をうまく捉えます。
オープンソース LRM との比較 (ソース)
TripoSR を実行する
モデルを実行し、それを使用して 3D 画像を生成しましょう。まずは GPU の仕様を確認します。-
!nvidia-smi
1.リポジトリのクローンを作成します
まず、リポジトリのクローンを作成して必要なファイルを取得します
!git clone https://github.com/VAST-AI-Research/TripoSR.git
cd TripoSR/
2.「setuptools」をアップグレードし、「pip」を使用して必要なパッケージをインストールします
!pip install --upgrade setuptools
!pip install -r requirements.txt
3.必要なライブラリがインストールされたら、gradio アプリを実行します
!python gradio_app.py
このコード ブロックはパブリック URL とローカル URL を生成します。リンクをクリックすると、gradio アプリにリダイレクトされます。
さらに、コード ブロックはノートブック自体内で直接 Gradio アプリを生成し、Gradio アプリを構築する際の興味深い機能の 1 つを示します。
結論
この記事では、最先端のオープンソース フィードフォワード 3D 再構成モデルである TripoSR を紹介します。このモデルは変圧器アーキテクチャに基づいており、LRM ネットワーク上で開発されています。この最新の画像から 3D モデルは、エンターテインメント、ゲーム、工業デザイン、建築の専門家の高まるニーズを満たすために作られています。応答性の高い出力を提供し、詳細な 3D オブジェクトの視覚化を可能にします。
この記事と、gradio アプリの Paperspace デモをお読みいただければ幸いです。
参考文献
- オリジナルの研究論文
- 安定性ai