言語翻訳、分類、セグメンテーションの課題のためのトランスフォーマー
導入
テキストをある言語から別の言語に翻訳するという課題は、自然言語処理 (NLP) の基礎の 1 つです。その主な目標は、入力資料の意図された意味を忠実に伝えるターゲット言語テキストを生成することです。このタスクの目的は、英語のステートメントを入力として受け取り、そのステートメントのフランス語翻訳またはその他の任意の言語を出力することです。 NLP の分野では言語翻訳が重要であるため、元のトランスフォーマー モデルはその目的を念頭に置いて作成されました。
以下の表に、トランスフォーマーを使用し、言語翻訳タスクで良好なパフォーマンスを示したモデルがリストされています。さまざまな言語的背景を持つ人々の間の情報と知識の流れを改善するために、これらのモデルは重要な役割を果たします。ビジネス、科学、教育、社会的交流などのさまざまな分野における NLP の潜在的な影響の広さを考慮すると、言語翻訳タスクが重要な研究テーマであることは明らかです。この表には、この分野の最先端技術を強化し、言語翻訳の新しい方法への扉を開く可能性を示す多くの変圧器ベースのモデルが示されています (Chowdhary & Chowdhary, 2020; Monroe; 2017; Hirschberg; & Manning; 2015)。
前提条件
- 基本的なプログラミング スキル: Python および PyTorch や TensorFlow などのライブラリに関する知識。
- NLP の基本の理解: トークン化、埋め込み、シーケンスツーシーケンス モデルなどの概念。
- トランスフォーマーの知識: アテンション メカニズムとトランスフォーマー アーキテクチャ (エンコーダー/デコーダーなど) の基本。
- データセットの準備: 翻訳、分類、またはセグメンテーション タスク用にクリーンアップされ、ラベルが付けられたデータセット。
- コンピューティング リソース: 効率的なトレーニングと推論のための GPU または TPU へのアクセス。
- ツールキット: 事前トレーニング済みモデル用の Hugging Face Transformers または同様のライブラリの使用経験。
トランス
2017 年に、バスワニらは、 (Vaswani et al.、2017) 最初のトランスフォーマー モデルを提案し、それ以来、自然言語処理の状況を劇的に変えました。 Vanilla トランスフォーマー パラダイムは、複数の言語を翻訳するという明確な目的のために開発されました。トランスフォーマー モデルは、マルチヘッド アテンション プロセスとマスクされたマルチヘッド アテンション プロセスを使用するエンコーダー モジュールとデコーダー モジュールが含まれているという点で、以前のモデルとは異なります。
入力言語のコンテキストはエンコーダ モジュールによって分析され、デコーダ モジュールはエンコーダの出力を適用し、マルチヘッド アテンションをマスクすることによってターゲット言語で出力を生成します。並列計算を実行するトランスフォーマー モデルの能力により、位置情報とともに単語を処理できることが、その成功の一部となっています。これにより、言語翻訳に不可欠な長距離の依存関係を管理できるようになり、大量のテキストを非常に効率的に処理できるようになります。
XLM
これは、複数の言語で使用できる言語を事前トレーニングするためのモデルです。モデルの構築には教師あり手法と教師なし手法の両方が使用されます。教師なしアプローチは、マスク言語モデリング (MLM) およびカジュアル言語モデリング (CLM) を使用したタスクの翻訳に非常に役立つことがわかっています。ただし、翻訳の課題は教師付き手法を使用するとさらに強化されました (Conneau & Lample、2019)。 XLM モデルは、さまざまな言語で自然言語処理タスクを実行できるため、言語をまたがるアプリケーションにとって貴重なリソースとなっています。 XLM モデルは、翻訳割り当ての効率性により、自然言語処理の分野で広く使用されています。
バート
BART (双方向自動回帰トランスフォーマー) として知られる事前トレーニング済みモデルは、主に破損したテキストをクリーンアップすることを目的としています。これには 2 つの事前トレーニング ステップがあります。1 つ目はテキストにノイズ破損を導入し、2 つ目は破損したテキストから元のテキストを回復することに焦点を当てます。驚くべき精度でテキストを生成、翻訳、理解するために、BART はエンコーダーおよびデコーダー モジュールを含むトランスフォーマー翻訳モデルを使用します (Lewis et al., 2020)。その自動回帰機能により、出力トークンを順次生成するのに適しており、双方向アプローチにより、以前と将来のトークンから学習することができます。これらの機能により、BART は幅広い NLP アプリケーションに適応可能なモデルになります。
スイッチトランス
スイッチ トランスフォーマー モデルは、NLP の世界では比較的新しい開発であり、その優れた精度と多用途性により多くの関心を集めています。これには、ゲート機構と順列ベースのルーティング システムが 2 つの主要な構成要素として含まれています。順列ベースのルーティング メカニズムのおかげで、モデルは入力シーケンスのどの部分に焦点を当てるかを決定するルーティング戦略を開発できます。
モデルは各入力に対してシーケンスのどの部分に注目するかを動的に決定できるため、異なる長さの入力を処理できます。このモデルは、ゲート メカニズムのおかげで分類とセグメンテーションを実行できます。ゲート メカニズムは、入力シーケンス全体からの情報の組み合わせに基づいて予測を行うようにトレーニングされています。これにより、モデルは入力シーケンス全体のラベルを予測する分類タスクと、入力シーケンスの個々の部分ごとにラベルを予測するセグメンテーション タスクを実行できるようになります。これについては、分類とセグメンテーションに関する次のセクションで説明します (Fedus et al.、2021)。
分類とセグメンテーション
自然言語処理 (NLP) は、大量のテキスト データの整理と分析を自動化するために、テキストの分類とセグメント化に大きく依存しています。タグやラベルは、感情、トピック、目的などの内容に基づいてテキストに適用されます。コンテンツ フィルタリング、情報検索、推奨システムなどのアプリケーションは、複数のソースからテキストを分類するこの方法の恩恵を受けることができます。さらなる処理のためにテキストを文、単語、トピックなどの意味のあるチャンクに分割することがテキスト セグメンテーションです。重要な自然言語処理 (NLP) アプリケーションはこのプロセスに大きく依存しており、これについては広範囲に調査され、書かれています (Chowdhary & Chowdhary, 2020; Kuhn, 2014; Hu et al., 2016)。
チャーフォーマー
このトランスフォーマーベースのモデルでは、バイトレベルの文字から潜在サブワードを直接学習するための軽量な方法である勾配ベースのサブワードトークン化 (GBST) が導入されています。このモデルは英語および他のいくつかの言語で利用でき、長いテキスト文書の分類を含む言語理解タスクにおいて優れたパフォーマンスを示しています (Tay et al., 2022)。
ソース
自然言語処理の分野では、大規模なデータセットでトレーニングされた BERT や GPT などの事前トレーニング済みモデルの人気が高まっています。しかし、これらのモデルの開発にかかるコストと環境への負担が問題視されています。スイッチトランスはこれらの問題の解決策として開発されました。計算コストを大幅に増加させることなく、より包括的なモデルが可能になります。数兆のパラメータを持つモデルは、フィードフォワード ニューラル ネットワーク (FFN) を複数の FFN を含むスイッチ層に置き換えることによって実現されます。
モデルのサイズが大きくなっても、スイッチ トランスの計算コストは以前のモデルと同じです。実際、スイッチ変圧器は 11 の異なるタスクでテストされ、全体的に印象的な結果が得られました (Fedus et al., 2021)。これらには、翻訳、質問応答、分類、要約が含まれます。
GPT とバリアント
これらのモデルは、分類、セグメンテーション、質問応答、翻訳などのさまざまな自然言語処理 (NLP) タスクに使用できます。 GPT とその亜種について話しましょう。 トランスフォーマーのデコーダー ブロックのみに焦点を当てることで、Generative Pre-Trained Transformer (GPT) モデルは、NLP でのトランスフォーマーの使用を大幅に前進させます。 GPT は、教師なし事前トレーニングと教師あり微調整手法を組み合わせることで、言語理解に対して半教師ありアプローチを採用します (Radford et al., 2018)。 2019 年の GPT モデルの成功を受けて、15 億個のパラメーターを備えた GPT-2 と呼ばれる事前トレーニング済みのトランスフォーマー ベースのモデルが導入されました。このモデルは、トランスフォーマーの事前トレーニング済みバージョンを大幅に改善しました (Radford et al., 2019)。翌年 (2020 年) には、GPT-3 として知られる GPT の最も高度な事前トレーニング済みバージョンが利用可能になりました。 1,750 億のパラメータがありました。これは、以前の非スパース言語モデルの 10 倍のサイズです。 BERT (Brown et al., 2020) などの事前トレーニング済みモデルとは異なり、GPT-3 は勾配の更新や微調整を必要とせずに、さまざまなタスクで良好なパフォーマンスを示します。
T5
ダウンストリームの自然言語処理 (NLP) タスクのパフォーマンスを向上させるために、T5 トランスフォーマー モデル (「Text-to-Text Transfer Transformer」の略) には、「Colossal Clean Crawled Corpus (C4)」と呼ばれるデータセットが導入されました。 T5 は、同じ構成を使用して多くの自然言語処理 (NLP) タスクを実行するようにトレーニングできる汎用モデルです。事前トレーニング後、モデルはさまざまなタスクに合わせてカスタマイズでき、さまざまなタスク固有のモデルと同等のパフォーマンス レベルに達します (Raffel et al., 2020)。
結論
変換を使用して言語翻訳を処理できます。彼らは自然言語などの逐次データのモデリングに優れており、自己注意メカニズムを使用して入力シーケンス全体で情報を伝達します。これにより、シーケンシャル データのモデリングに特に効果的になります。 Hugging Face、TensorFlow、PyTorch、Huawei は、言語翻訳の目的でトランスフォーマーを使用するために利用できるライブラリとモデルの例のほんの一部です。これらのライブラリには、モデルのパフォーマンスを微調整および評価するためのツールに加えて、さまざまな言語翻訳アプリケーション用の事前トレーニング済みトランスフォーマー モデルが含まれています。
参照
トランスフォーマーに関する調査: https://arxiv.org/abs/2106.04554