ウェブサイト検索

GPU ドロップレット上の HunyuanVideo


テキストからビデオへのモデルの出現は、過去 1 年間に起こった数多くの AI の奇跡の 1 つです。 SORA から VEO-2 まで、私たちはいくつかの本当に素晴らしいモデルがクローズド ソース市場に登場するのを見てきました。これらのモデルは、フォトリアリズム、アニメーション、プロ仕様の効果など、あらゆる種類のビデオを生成できます。ディープ ラーニングに続く他のすべてのものと同様に、オープンソース開発コミュニティは、これらのクローズド ソース モデルの成功を綿密に追跡しており、オープンソース モデルは常に同じビデオ品質と迅速な忠実度を達成しようとしています。

最近、かつて Stable Diffusion がそうであったように波紋を広げている 2 つの注目すべき AI テキスト動画変換モデルがリリースされました。これらは、具体的には LTX および HunyuanVideo のテキストからビデオへのモデルです。 LTX の低い RAM 要件と HunYuan の多用途性とトレーニング可能性により、テキストからビデオへのモデルの人気がこれまで以上に高いレベルにまで高まりました。

この一連の記事では、DigitalOcean の NVIDIA GPU 対応 GPU ドロップレットでこれらの素晴らしいモデルを使用する方法について説明します。まず、HunyuanVideo を詳しく見てみましょう。読者は、この最初の記事を読んで、HunyuanVideo と関連する次世代のテキストからビデオへのモデルが内部でどのように機能するかをより深く理解できることを期待できます。基礎となる理論を説明した後、モデルの実行を開始する方法を示すデモを提供します。

HunyuanVideo と DigitalOcean を使用して独自の素晴らしいビデオを作成する方法を学びましょう。

前提条件

  • Python: このデモには中級レベルの Python コードが含まれます。誰でもコードをコピーして貼り付けることができますが、スクリプトの理解と操作には Python が必要です。
  • 深層学習: この記事の最初のセクションでモデルの背後にある基礎理論について説明します。使用される用語には深層学習の概念に関する経験が必要です。 DigitalOcean アカウント: DigitalOcean で GPU ドロップレットを作成します。ユーザーがまだアカウントを作成していない場合は、アカウントの作成が必要になる場合があります。

渾源ビデオ

HunyuanVideo はおそらく、テキストからビデオへの画像生成において、競合するクローズド ソース モデルに匹敵する最初のオープンソース モデルです。この成功を達成するために、HunyuanVideo の研究チームは、データ構成とパイプライン アーキテクチャに関していくつかの検討を行いました。

データ自体は、テキストでの非常に緻密な説明を含む最も有益なトレーニング ビデオのみを使用するために、注意深く厳選され、洗練されています。まず、ビデオ データが複数のソースから集約されました。次に、このデータは、256p、360p、540p、720p の解像度ごとに一連の階層的調整を使用して解析されました。これらのフィルタリング手順は、元のソースから望ましくない特性を持つデータを削除することに重点を置き、手動選択の最終手順で終了しました。ビデオ データを手動で選択した後、研究者らは、次のカテゴリごとに各ビデオの説明を作成するタスクを処理する独自の VLM を開発しました。短い説明、緻密な説明、背景、スタイル、ショット タイプ、照明や各ビデオの雰囲気。これらの構造化されたキャプションは、トレーニングと推論のテキストベースを提供します。

次に、モデルのアーキテクチャを見てみましょう。 HunyuanVideo は、130 億を超えるパラメータを備えた強力なビデオ生成モデルであり、オープンソース コミュニティが利用できる最大のものの 1 つです。モデルは、Causal 3D VAE を使用して圧縮された、時空間的に圧縮された潜在空間でトレーニングされました。次に、テキスト プロンプトが大規模な言語モデルを使用してエンコードされ、条件として使用されました。画像を生成するには、ガウス ノイズと条件が入力として取得され、モデルは出力潜在を生成します。出力潜在は、3D VAE デコーダーを通じて画像またはビデオにデコードされます。 (ソース)

もう少し詳しく見てみると、上記の HunyuanVideo にある Transformer の設計がわかります。分割された時空間的注意と比較して優れたパフォーマンスを実現する統合されたフル アテンション メカニズムを採用し、画像とビデオの両方の統合生成をサポートし、既存の LLM 関連の高速化機能をより効果的に活用して、トレーニングと推論の効率を向上させます。 (ソース)

「テキスト情報と視覚情報を効果的に統合するために、ビデオ生成の「デュアルストリームからシングルストリームへ」ハイブリッド モデル設計の戦略に従います。この方法論のデュアルストリーム段階では、ビデオ トークンとテキスト トークンが複数のプロセスを通じて独立して処理されます。 Transformer ブロック。シングルストリーム フェーズで、各モダリティが独自の適切な変調メカニズムを学習できるようにし、ビデオ トークンとテキスト トークンを後続の Transformer ブロックにフィードして、効果的なマルチモーダル情報融合を実現します。視覚情報とセマンティック情報の間の複雑な相互作用を捕捉し、モデル全体のパフォーマンスを向上させます。」 (出典)

テキスト エンコーダについては、「デコーダ専用構造 [] を持つ事前トレーニング済みマルチモーダル大規模言語モデル (MLLM) を利用します。これには次の利点があります。 (i) T5 と比較して、視覚的命令の微調整後の MLLM は、より優れた画像テキストを備えています。」特徴空間での位置合わせ。これにより、拡散モデルでの指示に従う困難が軽減されます。 (ii) CLIP と比較して、MLLM は画像の詳細な記述と複雑な推論において優れた能力を実証されています。 (iii) MLLM は、ユーザー プロンプトの前に追加されたシステム指示に従うことで、ゼロショット学習者としてプレイでき、テキスト機能が重要な情報にさらに注意を払うのに役立ちます。 " (ソース)

まとめると、テキスト入力だけから新しいビデオや画像を作成するためのパイプラインが完成しました。

Hunyuanビデオコードデモ

GPUの選択

HunyuanVideo を実行するには、まずユーザーがモデルを実行するのに十分なコンピューティング能力を持っていることをお勧めします。少なくとも 40 GB、理想的には 80 GB の VRAM をお勧めします。このために、DigitalOcean の Cloud GPU Droplet 製品を使用することを好みます。詳細については、このリンクをチェックして、GPU ドロップレットを開始してください。

適切なクラウド プラットフォーム上の GPU を選択して起動したら、次のステップに進むことができます。

Pythonコード

まず、Python コードと Gradio を使用して HunyuanVideo を実行する方法を示します。開始するには、次のコードをターミナルに貼り付けます。

Git clone https://github.com/Tencent/HunyuanVideo
Cd HunyuanVideo/
Pip install -r requirements.txt
python -m pip install ninja
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.6.3
python -m pip install xfuser==0.4.0
python -m pip install "huggingface_hub[cli]"
Huggingface-cli login

次に、モデルにアクセスするために必要な HuggingFace へのログインを求めるプロンプトが表示されます。実際にダウンロードするには、HuggingFace ログイン後、以下をターミナルに貼り付けます。

huggingface-cli download tencent/HunyuanVideo --local-dir ./ckpts

ダウンロードが完了したら、次の最後のコマンドを使用して Web アプリケーションを起動できます。

python3 gradio_server.py --flow-reverse --share

これにより、パブリックにアクセス可能で共有可能なリンクが作成され、ローカル マシンのブラウザで開くことができるようになります。

ここから、強力な GPU を利用してビデオの生成を開始できます。まず、テキスト入力に説明的で詳細なプロンプトを入力します。次に、最初のビデオをより迅速に生成するために、低解像度 (540p) から始めることをお勧めします。気に入ったビデオが見つかるまで、この変更を加えたデフォルト設定を使用してビデオの生成を開始します。次に、詳細オプションを使用して反復可能なシードを設定すると、同じビデオのアップスケール バージョンをより高い解像度で再作成できるようになります。推論ステップの数を増やすこともできますが、これは出力の性質よりもビデオ品質に大きな影響を与えることがわかりました。

このモデルは信じられないほど多用途で使いやすいです。私たちのテストでは、リアリズム、ファンタジー、動くアートワーク、2D と 3D の両方のアニメーションなど、さまざまなスタイルのビデオを作成できることがわかりました。私たちは特に、このモデルが人物像に生み出すリアリズムに感銘を受けました。リアルなキャラクターに対して基本的なエフェクトを適用することである程度の成功を収めることもできました。特に、HunyuanVideo が人体と顔のあらゆる側面を生成する点でいかに卓越しているかに注目してください。手に苦労しているように見えますが、これはほとんどの拡散ベースの画像合成モデルに当てはまり、想定内のことです。さらに、モデルは前景では非常に詳細に描かれているのに対し、背景では詳細がやや欠けていることにも注目してください。ステップ数が高くても、ファズが背景の大部分を覆っているように見えます。全体として、このモデルは非常に効果的であり、GPU を使用するコストに十分な価値があることがわかりました。

これは、5 つの HunyuanVideo サンプルと MusicGen サンプル オーディオ トラックを合成して作成したサンプル ビデオです。ご覧のとおり、この素晴らしいモデルのさらなる開発と微調整が行われるにつれて、可能性は本当に無限です。

結論

HunyuanVideo は、オープン ソースとクローズド ソースのビデオ生成モデルの間のギャップを埋めるという非常に印象的な最初の試みです。 VEO-2 や SORA などのモデルが宣伝する高い視覚レベルには完全には一致していないようですが、HunyuanVideo は、トレーニング中にこれらのモデルがカバーする主題の多様性に一致させるという見事な仕事をしています。オープンソース化がこの特定の開発分野に打撃を与えているため、近い将来、特に TenCent のようなプレーヤーによるビデオ モデルの進歩がさらに急速に進むことが予想されます。

このシリーズのパート 2 では、LTX ビデオを使用した Image-to-Video 生成について説明しますので、ご期待ください。