St = (s1 . . . st) が t 個のトークンのシーケンスを表し、st ∈ V、V が語彙、|V| = N であるとします。語彙 V は固定住アルファベットの文字类列で構成されており [Sennrich et al., 2015]、N は 104 及以上のオーダーになることがよくあります。
次のトークン st+1 を次のランダム変数として定義します。
2.1 サンプリングシーケンス
F ⊂ P (V)(P はべき偏序演算子)を、特別なトークン EOS ∈ V で終わる複数トークン文案列のサブセットとします。テキスト形成タスクは、F からサンプルを取出することです。
F の关键因素を产生するために、いくつかの手順が検討されてきました。貪欲復号法は、各ステップで最も高い確率のトークンを選択し、トークンを再帰的に产生します。ビーム探讨法も、分布点のモードを見つけるためにヒューリスティックを利用して、トークンを再帰的に产生します。前段时间では、SMC サンプリングもシーケンスを产生するために利用されています [Lew et al., 2023]。