変圧器の基本

変圧器の基本



トランスフォーマーは、自己注意のメカニズムを採用し、入力データの各部分の重要性を微分的に重み付けするディープラーニングモデルです。主に自然言語処理(NLP)[1]とコンピュータビジョン(CV)の分野で使用されています。[2]

リカレントニューラルネットワーク(RNN)と同様に、トランスフォーマーは、翻訳やテキスト要約などのタスクへのアプリケーションを使用して、自然言語などのシーケンシャル入力データを処理するように設計されています。ただし、RNNとは異なり、トランスフォーマーは入力全体を一度に処理します。アテンションメカニズムは、入力シーケンス内の任意の位置のコンテキストを提供します。たとえば、入力データが自然言語の文の場合、トランスフォーマーは一度に 1 つの単語を処理する必要はありません。これにより、RNNよりも多くの並列化が可能になり、トレーニング時間が短縮されます。[1]

トランスフォーマーは2017年にGoogle Brainのチームによって導入され[1]、NLP問題[3]のモデルとしてますます選択され、長期短期記憶(LSTM)などのRNNモデルに取って代わります。追加のトレーニング並列化により、より大きなデータセットでのトレーニングが可能になります。これにより、BERT(トランスフォーマーからの双方向エンコーダ表現)やGPT(生成事前トレーニング済みトランスフォーマー)などの事前トレーニング済みシステムが開発され、ウィキペディアコーパスやコモンクロールなどの大規模な言語データセットでトレーニングされ、特定のタスクに合わせて微調整できます。[4][5]

連絡を取る


推奨 読む

お 問い合わせ

24時間オンラインサービス