paint-brush
大規模言語モデルを安全使用したエッセイの自動採点 に@junaidsyed
659 測定値
659 測定値

大規模言語モデルを使用したエッセイの自動採点

Junaid Syed15m2024/10/12
Read on Terminal Reader

長すぎる; 読むには

この論文では、自動エッセイ採点 (AES) の課題について取り上げ、結束性、文法、関連性などの主観的な特徴によるエッセイ採点の難しさを強調しています。この研究では、6 つの分析指標に焦点を当て、マルチタスク学習、オートエンコーダー ネットワーク、および Longformer などの高度なモデルを使用して長いエッセイを処理することで、現在の方法を改善することを提案しています。BERT などのモデルは大幅に進歩しましたが、トークンの長さの制限やコンテキストの理解の欠如などの問題は依然として残っています。この論文では、ドキュメント エンコーディングなどのソリューションを検討して、AES の精度と公平性を向上させます。
featured image - 大規模言語モデルを使用したエッセイの自動採点
Junaid Syed HackerNoon profile picture
0-item

著者:

  • ジュナイド・サイード、ジョージア工科大学
  • サイ・シャンバグ、ジョージア工科大学
  • Vamsi Krishna Chakravarthy、ジョージア工科大学


自動エッセイ採点 (AES) は、何20年にもわたって探究されてきた端庄的な NLP タスクです。AES は、多くの実用的な関連性と很大な経済的也许性を秘めています。AES は、大規模な競争試験 (例: SAT、GRE) や急成長しているオンライン学習市場の基礎となっています。ビル & メリンダ ゲイツ財団やザッカーバーグ-チャン イニシアティブなどの慈善公益団体や非営利団体が、AES に関する複数の Kaggle コンペティションに資金を保证しています [6、7、8]。しかし、これらの取り組みにもかかわらず、エッセイ採点の本质的な問題により、問題は解決にはほど遠い状態です。エッセイの評価は尤其に主観的であり、計算が難しい凝集性、文法、関連性などの抽像的な主要特征が関係します。その結果、文法や一貫性などの機能にわたってエッセイを細かく評価したトレーニング データのラベルを达到するのは尤其にコストがかかります。その結果、トレーニングデータセットは、(マスクされた)言語モデル、NER、POSタグ付け、機械翻訳などの他のNLPタスクと比較してかなり限られています。さらに、単純な全部スコアを保证しても、大毕业生へのフィードバックはほとんどまたはまったく保证されず、大毕业生の進歩に役立ちません。したがって、現在の取り組みは、単一のスコアではなく、細かい側面でエッセイを評価することに重点村を置いています。これは、予測モデルが1つのメトリックだけでなくすべてのメトリックで優れたパフォーマンスを発揮する必备があるため、過剰適合を避让するのにも役立ちます。主要的に、これはマルチタスクモデルと考えることができます。現在の探究では、結束性、構文、語彙、語法、文法、規則の6つのメトリックに着重を当てています。


1.1 文献調査

2010 时期过去は、ほとんどの AES モデルは計算言語学界によって設計された纯手工制作りの特徴に依存していました [10, 4]。しかし、これらのモデルは经常、既定の特徴 (エッセイの長さなど) に偏っており、トピックやメトリックに通常情况下化できませんでした。纯手工制作りの特徴への偏りは、Word2Vec や GloVe などの言語モデルによって学習された単語埋め込みに置き換えることで対処されました。これらの単語埋め込みに基づいて、単語埋め込みの龌龊にニューラル ネットワークを追加することにより、回帰タスクと分類タスクとしてエッセイのスコアを予測しました。大規模なコーパスでトレーニングされた埋め込みを采用することで、すべてのメトリックのエッセイ スコアと整体のスコアが大大に朝上しました [11]。しかし、パフォーマンスの朝上に无可欠であった単語埋め込み自体が、モデルの较大の制限であることが判明しました。埋め込みは本質的に Bag-of-Words アプローチから来ているため、过去のモデルで纯手工制作業で制作された言語的特徴によって大部分的にキャプチャされたコンテキスト情報をキャプチャできませんでした。纯手工制作業で制作された特徴を追加して过去のモデルの欠陥を隐藏的に再導入する代わりに、コンテキスト情報の欠如の問題は、LSTM [13] とトランスフォーマー アーキテクチャを采用したアテンション メカニズムによって対処されました。Vaswani と Polosukhin [14] の论述は、トランスフォーマーを采用して BERT モデルの開発に顺利完成创业しました。BERT モデルとトランスフォーマー アーキテクチャの顺利完成创业に後押しされて、アテンション ベースの言語モデルが次々と開発されました。現在では、単語の埋め込みの代わりに、コンテキスト情報をキャプチャする文またはドキュメント レベルの埋め込みを获得できます。これらの深い埋め込みを采用して、エッセイのスコアを予測するニューラル ネットワーク モデルが開発されています (分類タスクと回帰タスクの両方)。


1.2 現在のアプローチの限界

このような進歩にもかかわらず、BERTモデルの适用には关键な制限があります。Lottridge et al. (2021) [10]は、ゲームエッセイ、ランダムシャッフル、バベルエッセイに対するモデルの堅牢性の欠如を実証しました。パフォーマンスは、さまざまなクラスとメトリック間で同比に異なります。この欠点に対処するために、この調査では、マルチタスク学習を通じてすべてのメトリックを同時にモデル化します。BERTベースの进行浅析のもう1つの比较重要性な制限は、BERTモデルではトークンの長さが512に制限されていることです。私たちは、ドキュメントごとに最大的4096トークンを許可するLongformerなどのより高宽比なアーキテクチャを适用して、この問題に対処しようとしています。この浅析で検討したデータセット(詳細はセクション2.1を基准)では、ドキュメントの40%这が512トークンを超えています。したがって、標準のBERTモデルを适用してドキュメントを512トークンに切り捨てると、コンテキストが同比に失われます。さまざまな浅析の 3 つ目の比较重要性な制限は、データセットが限られていることです。複数の浅析が AES に重点を当てていますが、データセットはそれぞれスコアが異なり、その結果、すべてのデータセットでモデルを簡単にトレーニングすることはできません。したがって、この浅析では、データセット纯体でトレーニングするためのオートエンコーダ ネットワークの要用性を調査し、オートエンコーダから派生したエンコーディングを适用して AES タスクを実行します。要約すると、この浅析では、さまざまなディープラーニング ベースのドキュメント エンコーディングが自動エッセイ採点に与える影響を調査します。この浅析で検討したデータセット、的办法論、実験、およびディープ エンベッディングについては、セクション 2 で説明します。ディープ エンベッディングを変更することに加えて、オートエンコーダ ネットワーク纯体でディープ エンコーディングをトレーニングすることにより、さまざまな AES データセットを組み合わせる的办法を进行浅析します。これらすべてのアプローチの結果はセクション 3 で示され、結論とさらなる調査の大规律性はセクション 4 で示されます。

2. 方法論

2.1 データ

ラーニング エージェンシー ラボ、ジョージア州立读书、ヴァンダービルト读书は、州および国の育儿教育機関、非営利団体から大部分のエッセイを収集しました。このコレクションから、6 年生から 12 年生の生徒が書いた議論型エッセイで構成される「議論と談話要点の評価、選択、掌握のための説齐心のあるエッセイ (PERSUADE)」コーパスと、8 年生から 12 年生の英語学習者 (ELL) が書いたエッセイで構成される「英語学習者の竞争情报、熟達度、スキル評価 (ELLIPSE)」コーパスを開発しました。


ELLIPSE コーパス: ELLIPSE コーパスには、8 年生から 12 年生の ELL が書いた 7,000 以上のエッセイが含まれています。これらのエッセイは、2018-19 学年度と 2019-20 学年度の州標準ライティング評価の一部として書かれました。ELLIPSE コーパスのエッセイは、総合的スケールと分析的スケールの両方を含む 5 段階の採点基準を使用して、人間の評価者によって言語能力レベルの注釈が付けられました。総合的スケールはエッセイに示された全体的な言語能力レベルに焦点を当て、分析的スケールには、結束性、構文、語法、語彙、文法、慣習の評価が含まれていました。各分析尺度のスコアは 1.0 から 5.0 まで 0.5 刻みで、スコアが高いほどその尺度での能力が高くなります。


PERSUADE コーパス: PERSUADE コーパスには、米国の 6 年生から 12 年生までの生徒が書いた 25,000 以上の議論文が含まれています。これらのエッセイは、2010 年から 2020 年にかけての国と州の標準化されたライティング評価の一環として書かれました。PERSUADE コーパスの各エッセイは、議論と談話の要素、および議論要素間の階層関係について、人間の評価者によって注釈が付けられました。注釈ルーブリックは、議論文によく見られる談話要素を識別して評価するために開発されました。


このプロジェクトでは、ELLIPSE コーパスを用して、結束性、構文、語彙、語法、文法、慣習の 6 つの定量分析绝对误差のスコアを同時に予測します。さらに、オートエンコーダーを用して予測精密度の往前を図ります。そのアイデアは、ELLIPSE および PERSUADE コーパスを选用してオートエンコーダーをトレーニングすることです。このプロセスを通じて、オートエンコーダーからの圧縮された特徴ベクトルは、之前トレーニング済みの言語モデルの特徴では見逃される或者性のある、スコアリングに不能不欠なエッセイの特徴を捉えることができる或者性があります。

2.2 アプローチ

上述のとおり、このプロジェクトの目標は、8 年生から 12 年生の英語学習者が書いた議論文の 6 つの数据分析大小 (結束性、構文、語彙、語法、文法、慣例) のスコアを予測することです。このタスクでは、まずベースラインを開発し、次に複数の预先トレーニング済みモデルを操作してベースラインを优化します。


ベースライン: ベースラインは、GloVe 埋め込みと双方向 LSTM ネットワークを使用して開発されます。ベースライン モデルでは、まず正規表現ライブラリを使用してデータのクリーンアップ (句読点の削除、空白の削除など) を実行し、次に NLTK の単語トークナイザーを使用してエッセイをトークン化します。LSTM ネットワークは、エッセイの GloVe エンコーディングでトレーニングされ、上記の 6 つの分析尺度のスコアを表す長さ 6 のベクトルを出力します。ニューラル ネットワークのトレーニングには、平均二乗誤差損失 (MSELoss) を使用します。


DistilBERT : DistilBERT は、BERT ベースを蒸留してトレーニングされた、小型で高速、軽量の Transformer モデルです。 bert-base-uncased よりもパラメーターが 40% 少なく、GLUE 言語理解ベンチマークで測定された BERT のパフォーマンスの 95% 以上を維持しながら、60% 高速に実行されます。 BERT は、自己注意を使用して、シーケンス全体からコンテキスト情報をキャプチャします [2]。 これにより、エッセイのサンプルを評価し、より正確なスコアを提供するモデルの能力が向上します。 このモデルでは、自動トークナイザーを使用してエッセイをトークン化し、これらのトークンを事前トレーニング済みの DistilBERT モデルに渡して、エッセイのベクトル表現を取得します。 次に、MSELoss を使用して 2 層ニューラル ネットワークをトレーニングし、上記の 6 つのライティング属性のそれぞれのスコアを表す 6 次元の出力ベクトルを返します。


T5 : T5 または Text-To-Text Transfer Transformer は、教師なしタスクと教師ありタスクのマルチタスク混合で事前トレーニングされたエンコーダー/デコーダー モデルであり、各タスクはテキストからテキストへの形式に変換されます。マスクされた LM と次の文の予測の目的で事前トレーニングされた BERT では、シーケンス分類などのさまざまな下流タスクで事前トレーニング済みモデルのさまざまなインスタンスを個別に微調整する必要があります。T5 のテキストからテキストへのフレームワークは、同じ損失関数とデコード手順を使用して、さまざまなテキスト タスクで単一のモデルをトレーニングする簡単な方法を提供します。この事前トレーニング フレームワークは、下流タスクでのパフォーマンスを向上させる汎用の「知識」をモデルに提供します [12]。自動トークナイザーを使用してエッセイをトークン化し、これらのトークンを事前トレーニング済みの T5-Base モデルに渡して、エッセイのベクトル表現を取得しました。次に、MSELoss を使用して 2 層ニューラル ネットワークをトレーニングし、6 次元の出力ベクトル (DistilBERT と同様) を返します。


RoBERTa-base : RoBERTa は Facebook が開発した BERT のようなマスク言語モデルです。RoBERTa の場合、すべてのエポックのトレーニングを通じて動的マスクが使用されますが、BERT ではマスクは静的です。これにより、モデルは BERT よりもはるかに多くのトークンを学習します。BERT よりもはるかに大きなデータ コーパス (10 倍) とより大きな語彙セットでトレーニングすることで、さらなるパフォーマンスの向上が実現します。トレーニングにおけるこれらの変更により、RoBERTa はほとんどの GLUE および SQuAD タスクで BERT を上回ります [9]。


Longformer : Longformer は、RoBERTa チェックポイントから進化し、長いドキュメントでマスク言語モデル (MLM) としてトレーニングされた BERT のようなトランスフォーマー モデルです。最大 4,096 トークンの長さのシーケンスをサポートします。通常、自己注意メカニズムを使用するトランスフォーマー ベースのモデルは、メモリと計算要件がシーケンスの長さの 2 乗で増加するため、長いシーケンスを処理できません。これにより、長いシーケンスを効率的に処理することが不可能になります。Longformer は、シーケンスの長さに比例してスケーリングする注意メカニズムを導入することで、この重要な制限に対処します [1]。スライディング ウィンドウと拡張スライディング ウィンドウの注意メカニズムを使用して、ローカル コンテキストとグローバル コンテキストをキャプチャします。Longformer モデルでは、DistilBERT と同様のアプローチを使用します。自動トークナイザーを使用してエッセイをトークン化し、これらのトークンを事前トレーニング済みの Longformer モデルに渡して、エッセイのベクトル表現を取得します。次に、MSELoss を使用して 2 層ニューラル ネットワークをトレーニングし、6 次元の出力ベクトル (DistilBERT と同様) を返します。


また、Colab ランタイム GPU がメモリに収まるよりも大きなバッチ サイズでモデルをトレーニングするために、勾配累積を食用しました。Longformer モデルのサイズが大きいため、バッチ サイズは 2 に制限されていました。バッチ サイズが小さいと、勾配計算が不安定になります。勾配累積によってこの問題を避嫌します。反復ごとに損失を逆伝播する代わりに、損失を累積して、有一定数のバッチの後にのみエラーを逆伝播することで、勾配刷新の安定性を往前させます [3]。

2.3 評価

モデルの予測スコアの精密度较を評価するために、峰值列二乗峰值每平方米根誤差 (MCRMSE) を指標として应用します。指標は次のように計算されます。

2.4 実験

上記のモデルを実装した後、これらのモデルの予測誤差を调理するためにいくつかの実験を試みました。これらの実験の詳細は次のとおりです。


  • 出力の量子化: ELLIPSE コーパスでは、各分析尺度のスコアは 1.0 から 5.0 までの範囲で 0.5 ずつ増加し、スコアが高いほどその尺度での熟達度が高くなります。ニューラル ネットワークを変更して、出力が 1 から 5 の間に制限されるようにしました。これは、出力が通過するシグモイド層を組み込み、この出力に 4 を掛けて 1 を加えることで実現しました。さらに、ニューラル ネットワークから結果が生成されると、数学演算score = int[(2 * score + 0.5) / 2]を実行して、出力が 0.5 ずつ増加するようにします。この操作の目的は、元のスコアの形式を再現し、このような変更によって精度が向上するかどうかを確認することです。


  • 加重 RMSE : ELLIPSE コーパスでは、各分析尺度のスコアは 1.0 から 5.0 までの範囲で 0.5 ずつ増加します。ただし、データセット内の各スコアの分布は似ていません。2.5、3、3.5 などの特定のスコアは、データセット内の各分析尺度でより頻繁に発生しますが、1 や 5 などのスコアはデータセット全体でまれにしか発生しません。この不均衡を補うために、加重平均二乗誤差 (WRMSE) 関数を使用しました。この関数では、特定のスコアの頻度の逆数が重みとして使用され、他の重みと比較して極端に高い場合はこの重みが切り捨てられます。


  • マルチヘッド アーキテクチャ: 前のセクションで述べたように、データセット内の各スコアの分布は似ていないため、スコアを予測するために、メジャー固有の最終的な 2 層ニューラル ネットワークを使用する実験を行いました。そのため、6 つの異なるスコア値を予測する単一の出力ヘッドの代わりに、各分析メジャーのスコアを予測する 6 つの異なる出力ヘッドを実装しました。


  • オートエンコーダー: エッセイのマルチクラススコアリングという現在のタスクに提供されているデータセットは、約 4,000 サンプルのみです。ただし、ELLIPSE と PERSUADE コーパスを合わせると、エッセイ全体の単一スコアやエッセイの一部など、他の AES タスクのエッセイが 180,000 件以上あります。そのため、オートエンコーダーを使用して、この大規模なデータベースを活用し、半教師あり学習を実行します。簡単に説明すると、BERT、T5 などの言語モデルからのエンコーディングは、180,000 サンプルすべてを使用してトレーニングされたオートエンコーダー ネットワークに渡されます。次に、ボトルネック レイヤー エンコーディングまたはオートエンコーダーのデコーダー部分からのノイズ除去された言語モデル エンコーディングのいずれかを使用して、回帰ヘッドの 2 層ニューラル ネットワークを使用してマルチクラス スコアを予測します。これは、完全教師ありシナリオに似ています。したがって、ラベルなしデータのより大きなセットを活用してオートエンコーダーをプリプロセッサとしてトレーニングすることで、教師あり学習の予測を改善しようとしています。この研究では、DistilBERT エンコーディングに基づくノイズ除去エンコーディングの両方を検討しました。

3. 結果と考察

事前トレーニング済みエンコーディングの効果: 表 1 は、セクション 2.2 で説明した事前トレーニング済みモデルを変更することによって得られたパフォーマンス メトリックをまとめたものです。これらの実行では、事前トレーニング済みモデルのエンコーディングは、MSE 損失を使用してトレーニングされた 2 層ニューラル ネットワークに直接渡され、セクション 2.4 で説明した潜在的な改善はいずれも実装されていません。これはマルチクラス回帰であるため、各スコアリング メトリックのモデルのパフォーマンスは表 3 に示されています。


表 1 にリストされているトランスフォーマー アーキテクチャの中で、マスクされた言語モデル DistilBERT、RoBERTa、および Longformer が转化モデル T5 よりもパフォーマンスが優れていることがわかります。これは、マスクされたモデルが数値推进力による識別タスク向けに調整されているためと考えられます。これが複数の转化言語モデルに一样化できるかどうかを結論付けるには、さらなる探析が需要です。全队的に、RoBERTa はさまざまなモデルの中で最好の予測スコアを獲得していますが、これはおそらく、トレーニング コーパスがはるかに大きく、マスクが優れていることが理由です。

表1: さまざまなモデルの全体的なMCRMSEスコア

モデルMCRMSE メトリック
ベースライン1.36
ディスティルバート0.4934
T5ベース0.5320
ロベルタ0.4746
ロングフォーマー0.4899


回帰ヘッドの改善の効果: 以前、回帰ヘッドのトレーニングを一定に保ちながら、回帰ヘッドへの入力を変化させる (つまり、事前トレーニング済みモデルとその中のエンコーディングを変化させる) ことによる効果を調べました。このセクションでは、エンコーディングを一定に保ちながら、回帰ヘッドのトレーニングを変化させることによる効果を調べます。セクション 2.4 では、この研究で調べられた回帰トレーニングのさまざまな変更をリストします。このセクション全体で、最速のモデルであり GPU 要件が低いため、DistilBERT モデルが使用されていることに注意してください。さまざまなトレーニング スキーム/強化の結果は、表 2 に示されています。

表2: さまざまなモデルのMCRMSEスコア

実験MCRMSE
阻力量子化0.5294
严重RMSE 0.5628
マルチヘッドアーキテクチャ0.508
オートエンコーダのノイズ去掉0.575


残念ながら、回帰モデルのトレーニングに対するこれらの変更はいずれも、元のモデルと比較して予測导致精度の大幅度な往前にはつながりませんでした。実際、表 2 の検証セットのパフォーマンス メトリックは、これらの変更によってパフォーマンスが缺乏したことを示しています。この缺乏が発生する想法は明らかではなく、このパフォーマンスの缺乏がアーティファクトではないことを確認するには、より大きなデータセットを适用したさらなる調査が不行欠です。


テキストエンコーディングと回帰ヘッドトレーニングのすべてのバリエーションについて、個々の限度の検証MCRMSEスコアから、凝集性と文法がすべてのモデルにわたって予測するのが最も難しいように見えることがわかります(表3を参照物)。これは、AESで运用されている及时トレーニング済み言語モデルの限界であり、私たちのモデリングの限界ではない已经性があります。Kim et al.(2020)[5]は、現在の言語モデルが文法的に相当な情報に基づいていることの限界を示し、言語モデルのさらなる進歩の中心点性を示しています。

表3: 個々の分析尺度のMCRMSEスコア

モデル(または実験)凝集構文語彙語法文法コンベンション
ベースライン1.37 1.35 1.32 1.34 1.44 1.36
蒸留バート0.54 0.51 0.46 0.52 0.57 0.49
T5ベース0.55 0.52 0.48 0.54 0.58 0.53
ロベルタ0.51 0.47 0.42 0.47 0.51 0.46
ロングフォーマー0.54 0.48 0.46 0.49 0.53 0.47
distilBERT + 汽耗率量子化0.55 0.53 0.48 0.53 0.57 0.51
蒸留BERT + WRMSE 0.56 0.56 0.55 0.56 0.61 0.53
distilBERT + マルチヘッドアーチ。 0.53 0.50 0.45 0.51 0.56 0.49
オートエンコーダ + distilBERT 0.59 0.56 0.52 0.56 0.61 0.55


4. 結論

この研究探讨では、自動エッセイ採点タスクで回帰ヘッドをトレーニングするためのさまざまな之前トレーニング済みアーキテクチャと手段の効果を調査しました。このタスクでは、各エッセイを 6 つの言語指標 (結束性、文法、語彙など) について 1 から 5 のスケールで採点します。データセットは ELLIPSE コーパスから得到され、按照的には Kaggle コンテストにリストされているデータのサブセットです。5 つのディープラーニング アーキテクチャと回帰ヘッドをトレーニングする 5 つの手段を検討し、シンプルな 2 層フィードフォワード層を備えた RoBERTa-base を食用してスコアを予測すると、マルチクラス推进力が最良の結果をもたらすことが確認されました。


予想通り、トランスフォーマー アーキテクチャは GloVe+LSTM のベースライン モデルを逐年に上回りました。さらに、トランスフォーマー アーキテクチャ内では、マスクされた言語モデル (DistilBERT、RoBERTa、Longformer) が形成言語モデル T5 と比較して優れたパフォーマンスを発揮することがわかります。この観察結果はすべての形成モデルに般化されるわけではありませんが、MLM は数値推进力に特化してトレーニングされているため、直感的に MLM の優位性は一貫しているようです。


この实验分析のもう一つの興味深い観察結果は、損失関数の変更、扭矩是什么の制約、オートエンコーダベースの次元削減/ノイズ排除、およびデータ拡張によって回帰ヘッドのトレーニングを変化させても、モデルのパフォーマンスが向前しなかったことです。これはむしろ予想外のことで、この現象の背後にある原因を彻底には表达していません。今後の实验分析では、これらのアプローチをより大規模なデータセットで繰り返す将会性があります。これにより、回帰ヘッドのトレーニングに関するこれらの観察が似的化できるかどうかを分析するのに役立ちます。


まとめると、マルチタスク学習と同様に、2 層のフィードフォワード ニューラル ネットで RoBERTa エンコーディングを选择して 6 つのスコアを同時に予測すると、高达のパフォーマンスが得られることがわかります。特に、データセットのサイズが小さいことを考慮すると、堅牢な前期トレーニング済みモデルを选择することで、モデルの予測パフォーマンスが大面积的に往前することがわかります。また、エッセイの文法を評価するパフォーマンスは他のどの評価指標よりも悪く、これは言語モデルに一直有のものです。したがって、今後の设计では、言語の文法的な側面をより適切に捉えるために言語モデルを提高することに亮点を当てる需要があります。

参考文献

  1. Iz Beltagy、Matthew E Peters、Arman Cohan。2020年。Longformer:長い文書のトランスフォーマー。arXivプレプリントarXiv:2004.05150
  2. Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。2018. BERT: 言語理解のためのディープ双方向トランスフォーマーの事前トレーニング。arXivプレプリント arXiv:1810.04805
  3. Joeri R Hermans、Gerasimos Spanakis、Rico Möckel。2017。累積勾配正規化。Asian Conference on Machine Learning 、439~454ページ。PMLR。
  4. Zixuan Ke と Vincent Ng。2019。「自動エッセイ採点:最先端の調査」 IJCAI 、第 19 巻、6300-6308 ページ。
  5. Taeuk Kim、Jihun Choi、Daniel Edmiston、Sang-goo Lee。2020。事前学習済み言語モデルはフレーズを認識しているか?文法誘導のためのシンプルだが強力なベースライン。
  6. The Learning Agency Lab。2022a。フィードバック賞 - 英語学習。
  7. ラーニングエージェンシーラボ。2022b。フィードバック賞 - 生徒の文章の評価。
  8. ラーニングエージェンシーラボ。2022c。フィードバック賞 - 効果的な議論を予測する。
  9. Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、およびVeselin Stoyanov。2019。Roberta:堅牢に最適化されたBERT事前トレーニングアプローチ。arXivプレプリントarXiv:1907.11692。
  10. Sue Lottridge、Ben Godek、Amir Jafari、Milan Patel。2021。ゲーム戦略に対するディープラーニングと従来の自動スコアリングアプローチの堅牢性の比較。技術レポート - Cambium Assessment Inc.
  11. Huyen Nguyen と Lucio Dery。2016。「自動エッセイ採点のためのニューラル ネットワーク」CS224d スタンフォード レポート: 1-11。
  12. Adam Roberts と Colin Raffel。2020 年。T5 による転移学習の探求: テキストからテキストへの転送トランスフォーマー。23 ~ 7 ページにアクセス。
  13. Kaveh Taghipour と Hwee Tou Ng。2016。「自動エッセイ採点へのニューラルアプローチ」自然言語処理における経験的手法に関する 2016 年会議の議事録、pp. 1882-1891。
  14. Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Łukasz Kaiser、Vaswani、Ashish、Illia Polosukhin。2017。「必要なのは注意だけ。神経情報処理システムの進歩」、30。


바카라사이트 바카라사이트 온라인바카라