ウェブサイト検索

Grounding DINO 1.5: オープンセット物体検出の限界を押し上げる


導入

近年、ゼロショットオブジェクト検出はコンピュータービジョンの進歩の基礎となっています。現実世界のアプリケーションの構築では、多用途で効率的な検出器の作成が重要な焦点となってきました。 IDEA Research による Grounding DINO 1.5 の導入は、この分野、特にオープンセットの物体検出において大きな進歩をもたらしました。

前提条件

  • 基本的な理解: 物体検出の概念とトランスフォーマーのアーキテクチャに関する知識。
  • 環境セットアップ: Python、PyTorch、および関連する ML ライブラリがインストールされています。
  • データセットの知識: オープンセット オブジェクト検出用のデータセット (COCO、LVIS など) の経験。
  • ハードウェア: 効率的なトレーニングと推論のための GPU へのアクセス。

グランディングDINOとは?

DINO をベースにしたオープンセット検出器である Grounding DINO は、最先端の物体検出性能を実現しただけでなく、グラウンディングされた事前トレーニングを通じてマルチレベルのテキスト情報の統合も可能にしました。グラウンディング DINO には、GLIP やグラウンディングされた言語イメージの事前トレーニングに比べて、いくつかの利点があります。まず、言語モデルと同様に、Transformer ベースのアーキテクチャにより、画像データと言語データの両方の処理が容易になります。

DINO フレームワークの接地

Grounding DINO 1.5シリーズの全体骨格(出典)

上図の骨格がGrounding DINO 1.5シリーズの全体骨格です。このフレームワークは、Grounding DINO のデュアル エンコーダー、シングル デコーダーの構造を保持しています。さらに、このフレームワークは、Pro モデルと Edge モデルの両方で Grounding DINO 1.5 まで拡張します。

グラウンディングDINOは、DINOとGLIPのコンセプトを組み合わせたものです。トランスベースの手法である DINO は、エンドツーエンドの最適化による物体検出に優れており、非最大抑制や NMS などの手作りモジュールの必要性を排除します。逆に、GLIP はフレーズグラウンディング、テキスト内の単語やフレーズを画像やビデオ内の視覚要素にリンクさせることに焦点を当てています。

グラウンディング DINO のアーキテクチャは、画像バックボーン、テキスト バックボーン、画像とテキストの融合のための機能拡張機能、言語ガイド付きのクエリ選択モジュール、およびオブジェクト ボックスを調整するためのクロスモダリティ デコーダーで構成されています。最初に、画像とテキストの特徴を抽出して融合し、画像の特徴からクエリを選択し、これらのクエリをデコーダで使用してオブジェクト ボックスと対応するフレーズを予測します。

Grounding DINO 1.5 の新機能は何ですか?

Grounding DINO 1.5 は、言語情報を組み込み、タスクをフレーズ グラウンディングとして枠組み化することで物体検出を再定義した、その前身である Grounding DINO によって築かれた基盤を基礎に構築されています。この革新的なアプローチは、多様なデータセットでの大規模な事前トレーニングと、画像とテキストのペアの広範なプールからの擬似ラベル付きデータでの自己トレーニングを活用します。その結果、堅牢なアーキテクチャと豊富なセマンティクスにより、オープンワールド シナリオで優れたモデルが得られます。

Grounding DINO 1.5 はこれらの機能をさらに拡張し、Grounding DINO 1.5 Pro と Grounding DINO 1.5 Edge という 2 つの特殊なモデルを導入します。 Pro モデルは、モデルの容量とデータセット サイズを大幅に拡張し、ViT-L などの高度なアーキテクチャを組み込み、2,000 万を超える注釈付き画像を生成することにより、検出パフォーマンスを強化します。対照的に、エッジ モデルはエッジ デバイス向けに最適化されており、高レベルの画像特徴により高い検出品質を維持しながら、計算効率を重視しています。

実験結果は、Grounding DINO 1.5 の有効性を強調しており、Pro モデルは新しいパフォーマンス基準を設定し、Edge モデルは優れた速度と精度を示し、エッジ コンピューティング アプリケーションに非常に適しています。この記事では、Grounding DINO 1.5 によってもたらされた進歩を詳しく掘り下げ、その方法論、影響、オープンセットの物体検出の動的な状況における潜在的な将来の方向性を探り、それによって現実世界のシナリオでの実用的なアプリケーションに焦点を当てます。

Grounding DINO 1.5 は、公的ソースからの 2,000 万を超えるグラウンディング画像のデータセットである Grounding-20M で事前トレーニングされています。トレーニング プロセス中、十分に開発されたアノテーション パイプラインと後処理ルールによる高品質のアノテーションが保証されます。

パフォーマンス分析

以下の図は、多くのカテゴリを含む COCO や LVIS などのデータセット内のオブジェクトを認識するモデルの機能を示しています。これは、Grounding DINO 1.5 Pro が以前のバージョンよりも大幅に優れていることを示しています。特定の前モデルと比較して、Grounding DINO 1.5 Pro は顕著な改善を示しています。

このモデルは、さまざまなアプリケーションをカバーする 35 のデータセットを含む ODinW (Object Detection in the Wild) ベンチマークを使用して、さまざまな現実世界のシナリオでテストされました。 Grounding DINO 1.5 Pro は、以前のバージョンの Grounding DINO に比べてパフォーマンスが大幅に向上しました。

COCO および LVIS 上の Grounding DINO 1.5 Edge のゼロショット結果は、A100 GPU を使用して 1 秒あたりのフレーム数 (FPS) で測定され、PyTorch 速度/TensorRT FP32 速度で報告されます。 NVIDIA Orin NX 上の FPS も提供されます。 Grounding DINO 1.5 Edge は驚くべきパフォーマンスを達成し、他のすべての最先端のアルゴリズム (OmDet-Turbo-T 30.3 AP、YOLO-Worldv2-L 32.9 AP、YOLO-Worldv2-M 30.0 AP、YOLO-Worldv2-S) をも上回ります。 AP22.7)。

DINO 1.5 Pro の接地および DINO 1.5 Edge の接地

DINO 1.5 Pro の接地

Grounding DINO 1.5 Pro は、Grounding DINO のコア アーキテクチャに基づいて構築されていますが、より大規模な Vision Transformer (ViT-L) バックボーンでモデル アーキテクチャを強化しています。 ViT-L モデルは、さまざまなタスクで優れたパフォーマンスを発揮することで知られており、トランスフォーマー ベースの設計はトレーニングと推論の最適化に役立ちます。

Grounding DINO 1.5 Pro が採用する主要な方法論の 1 つは、特徴抽出のための深い初期融合戦略です。これは、言語と画像の特徴が、デコード段階に移行する前の特徴抽出プロセス中にクロスアテンション メカニズムを使用して早い段階で結合されることを意味します。この早期統合により、両方のモダリティからの情報をより徹底的に融合することが可能になります。

研究の中で、研究チームは初期の融合戦略と後期の融合戦略を比較した。初期融合では、言語と画像の特徴がプロセスの早い段階で統合され、検出再現率が向上し、境界ボックス予測がより正確になります。ただし、このアプローチではモデルが幻覚を起こすことがあります。これは、画像に存在しないオブジェクトを予測することを意味します。

一方、後期融合では、言語と画像の特徴が統合される損失計算フェーズまで分離されたままになります。このアプローチは一般に幻覚に対してより堅牢ですが、視覚と言語の特徴を最後に組み合わせるだけでは調整がより困難になるため、検出再現率が低下する傾向があります。

初期融合の欠点を最小限に抑えながら、その利点を最大化するために、Grounding DINO 1.5 Pro は初期融合の設計を維持していますが、より包括的なトレーニング サンプリング戦略を組み込んでいます。この戦略により、トレーニング中にネガティブ サンプル (対象オブジェクトを含まない画像) の割合が増加します。そうすることで、モデルは関連情報と無関係な情報をより適切に区別できるようになり、高い検出再現率と精度を維持しながら幻覚を軽減します。

要約すると、Grounding DINO 1.5 Pro は、初期融合アーキテクチャの長所と短所のバランスをとる改善されたトレーニング アプローチと初期融合を組み合わせることで、予測機能と堅牢性を強化します。

DINO 1.5 エッジの接地

Grounding DINO は画像内の物体を検出するための強力なモデルですが、多くの計算能力を必要とします。このため、自動車、医療機器、スマートフォンなど、リソースが限られた小型デバイスでの使用が困難になります。これらのデバイスは、画像をリアルタイムで迅速かつ効率的に処理する必要があります。 Grounding DINO をエッジ デバイスに導入することは、自動運転、医療画像処理、コンピュテーショナル フォトグラフィーなどの多くのアプリケーションにとって非常に望ましいことです。

ただし、オープンセット検出モデルは通常、大量の計算リソースを必要としますが、エッジ デバイスにはそれが不足しています。オリジナルの Grounding DINO モデルは、マルチスケール画像特徴と計算集約型の特徴エンハンサーを使用します。これによりトレーニングの速度とパフォーマンスが向上しますが、エッジ デバイス上のリアルタイム アプリケーションには非現実的です。

この課題に対処するために、研究者らはエッジ デバイス向けの効率的な機能拡張機能を提案しています。彼らのアプローチは、低レベルの特徴にはセマンティック情報が不足しており、計算コストが増加するため、クロスモダリティ融合に高レベルの画像特徴 (P5 レベル) のみを使用することに重点を置いています。この方法により、処理されるトークンの数が大幅に減り、計算負荷が軽減されます。

エッジ デバイスでの統合を改善するために、モデルでは変形可能なセルフ アテンションをバニラ セルフ アテンションに置き換え、低レベルの画像特徴 (P3 および P4 レベル) を統合するクロススケール特徴融合モジュールを導入しています。この設計は、機能強化の必要性と計算効率の必要性のバランスをとります。

Grounding DINO 1.5 Edge では、元の特徴エンハンサーがこの新しい効率的なエンハンサーに置き換えられ、EfficientViT-L1 が迅速なマルチスケール特徴抽出のための画像バックボーンとして使用されます。 NVIDIA Orin NX プラットフォームに導入すると、この最適化されたモデルは、640 × 640 の入力サイズで 10 FPS を超える推論速度を達成します。これにより、パフォーマンスと効率のバランスが取れ、エッジ デバイス上のリアルタイム アプリケーションに適しています。

Origin Feature Enhancer と New Efficient Feature Enhancer の比較 (出典)

NVIDIA Orin NX 上の Grounding DINO 1.5 Edge の視覚化では、FPS とプロンプトが画面の左上隅に表示されます。右上隅には、録画されたシーンのカメラビューが表示されます。

物体検出のデモ

必ず DeepDataSpace にリクエストして API キーを取得してください。 API キーについては DeepDataSpace を参照してください: https://deepdataspace.com/request_api。

このデモを実行してモデルの実験を開始するために、この記事を含む Jupyter ノートブックを作成して追加し、テストできるようにしました。

まず、リポジトリのクローンを作成します。

!git clone https://github.com/IDEA-Research/Grounding-DINO-1.5-API.git

次に、必要なパッケージをインストールします。

!pip install -v -e .

以下のコードを実行してリンクを生成します。

!python gradio_app.py --token ad6dbcxxxxxxxxxx

DINO 1.5 の実世界への応用とグラウンディングに関する結論

1.自動運転車

  • 既知の交通標識、歩行者、道路上に出現する可能性のある見慣れない物体を検出および認識し、より安全なナビゲーションを確保します。
  • トレーニング データで事前にラベル付けされていない、瓦礫や動物などの予期しない障害物を特定します。

2.監視とセキュリティ

  • 立ち入り禁止エリア内の許可されていない個人や物体を、これまで見たことがなくても認識します。
  • 空港や駅などの公共の場所で放置された物体を検出すると、潜在的なセキュリティ上の脅威となる可能性があります。

3.小売および在庫管理

  • 元の在庫に含まれていない可能性のある新製品を含む、店頭の商品を識別および追跡します。
  • 万引きを示す可能性のある店内の異常な行為や見慣れない物体を認識する。

4.ヘルスケア

  • 新しいタイプの腫瘍やまれな状態など、医療スキャンでの異常や見慣れないパターンの検出。
  • 特に長期ケアや術後の回復において、患者の異常な行動や動きを特定します。

5.ロボット工学

  • 新しい物体や周囲の変化を認識して適応することにより、ロボットが動的で非構造化された環境で動作できるようにします。
  • 環境が予測不可能で見慣れない物体で満たされている被災地での犠牲者や危険を検出します。

6.野生動物の監視と保護

  • 生物多様性の研究と保全活動のために、自然の生息地で新種または希少種を検出および特定します。
  • 保護区域に見知らぬ人の存在や違法な密猟行為を示す可能性のある道具がないか監視する。

7.製造および品質管理

  • これまでに発生したことのない新しい種類の欠陥を含む、生産ライン上の製品の欠陥または異常を特定します。
  • 多種多様な物体を認識・仕分けして製造工程の効率を向上します。

この記事では、オープンセットの物体検出を強化するために設計された Grounding DINO 1.5 を紹介します。主要モデルである Grounding DINO 1.5 Pro は、COCO および LVIS ゼロショット テストで新たなベンチマークを設定し、検出精度と信頼性において大幅な進歩を遂げています。

さらに、Grounding DINO 1.5 Edge モデルは、さまざまなアプリケーションにわたるリアルタイムの物体検出をサポートし、シリーズの実用的な適用可能性を広げます。

記事をお楽しみいただければ幸いです。

参考文献

  • オリジナルの研究論文
  • ギットハブリンク