トランスフォーマーの基本

トランスフォーマーの基本



トランスフォーマーは、自己注意のメカニズムを採用した深層学習モデルであり、入力データの各部分の有意性を微分的に重み付けします。主に自然言語処理(NLP)[1]やコンピュータビジョン(CV)の分野で使用されています。[2]

リカレントニューラルネットワーク(RNN)と同様に、トランスフォーマーは、自然言語などのシーケンシャル入力データを処理し、翻訳やテキスト要約などのタスクに応用できるように設計されています。ただし、RNNとは異なり、トランスフォーマーは入力全体を一度に処理します。アテンションメカニズムは、入力シーケンス内の任意の位置のコンテキストを提供します。たとえば、入力データが自然言語の文の場合、トランスフォーマーは一度に 1 つの単語を処理する必要はありません。これにより、RNN よりも多くの並列化が可能になり、トレーニング時間が短縮されます。[1]

トランスフォーマーは、2017年にGoogle Brainのチームによって導入され[1]、NLP問題[3]の選択肢が増えており、LSTM(Long Short-Term Memory)などのRNNモデルに取って代わるモデルとなっています。追加のトレーニング並列化により、より大きなデータセットでのトレーニングが可能になります。これにより、BERT(Bidirectional Encoder Representations from Transformers)やGPT(Generative Pre-trained Transformer)などの事前学習済みシステムが開発され、Wikipedia CorpusやCommon Crawlなどの大規模な言語データセットで学習され、特定のタスクに合わせて微調整できるようになりました。[4][5]

お問い合わせ


推奨読書