659 чытанні

Аўтаматызаваная ацэнка эсэ з выкарыстаннем вялікіх моўных мадэляў

па Junaid Syed15m2024/10/12

Занадта доўга; Чытаць

У гэтым дакуменце разглядаюцца праблемы аўтаматызаванай ацэнкі эсэ (AES), падкрэсліваецца цяжкасць ацэнкі эсэ з-за такіх суб'ектыўных асаблівасцей, як згуртаванасць, граматыка і рэлевантнасць. Даследаванне засяроджана на шасці аналітычных паказчыках і прапануе паляпшэнні ў параўнанні з сучаснымі метадамі за кошт выкарыстання шматзадачнага навучання, сетак аўтакадавальнікаў і прасунутых мадэляў, такіх як Longformer, для апрацоўкі больш доўгіх эсэ. Нягледзячы на значны прагрэс у такіх мадэлях, як BERT, такія праблемы, як абмежаванні па даўжыні токенаў і адсутнасць кантэкстуальнага разумення, застаюцца. У артыкуле разглядаюцца рашэнні, у тым ліку кадзіроўкі дакументаў, для павышэння дакладнасці і справядлівасці AES.

featured image - Аўтаматызаваная ацэнка эсэ з выкарыстаннем вялікіх моўных мадэляў

Аўтары:

Джунайд Сайед, Тэхналагічны інстытут Джорджыі
Сай Шанбхаг, Тэхналагічны інстытут Джорджыі
Вамсі Крышна Чакраварці, Тэхналагічны інстытут Джорджыі

Аўтаматызаваная ацэнка эсэ (AES) - гэта класічная задача НЛП, якая вывучаецца на працягу многіх дзесяцігоддзяў. AES мае вялікую практычную значнасць і велізарны эканамічны патэнцыял - AES з'яўляецца краевугольным каменем для вялікіх конкурсных экзаменаў (напрыклад, SAT, GRE), а таксама хутка развіваецца рынку онлайн-навучання. Некалькі філантрапічных і некамерцыйных арганізацый, такіх як Фонд Біла і Мелінды Гейтс і Ініцыятыва Цукерберга-Чана, фінансавалі некалькі конкурсаў Kaggle па AES [6, 7, 8]. Аднак, нягледзячы на гэтыя намаганні, праблема яшчэ далёкая ад вырашэння з-за фундаментальных цяжкасцей з ацэнкай эсэ. Ацэнка эсэ вельмі суб'ектыўная і ўключае абстрактныя фактары, такія як згуртаванасць, граматыка, рэлевантнасць і г.д., якія цяжка вылічыць. У выніку атрыманне цэтлікаў для навучальных даных з падрабязным рэйтынгам эсэ па такіх характарыстыках, як граматыка, звязнасць і г.д., каштуе даволі дорага. Такім чынам, набор навучальных даных даволі абмежаваны ў параўнанні з іншымі задачамі НЛП, такімі як (замаскіраваныя) моўныя мадэлі, NER, тэгі POS, машынны пераклад і г.д. не дапамагае студэнтам у іх прасоўванні. Такім чынам, цяперашнія намаганні сканцэнтраваны на ацэнцы эсэ па дэталёвых аспектах, а не па адным бале. Гэта таксама дапамагае пазбегнуць празмернай падганяння, таму што мадэль прагназавання цяпер павінна добра працаваць па ўсіх паказчыках, а не толькі па адным паказчыку, па сутнасці, гэта можна разглядаць як шматзадачную мадэль. У цяперашнім даследаванні мы сканцэнтраваны на шасці паказчыках: згуртаванасць, сінтаксіс, слоўнікавы запас, фразеалогія, граматыка і канвенцыі.

1.1 Агляд літаратуры

Да 2010-х гадоў большасць мадэляў AES абапіраліся на асаблівасці ручной працы, распрацаваныя камп'ютэрнымі лінгвістамі [10, 4]. Тым не менш, гэтыя мадэлі, як правіла, былі прадузятымі ў бок пэўных асаблівасцяў (напрыклад, працягласць эсэ) і не маглі абагульніць па тэмах і паказчыках. Прадузятасць да асаблівасцей, створаных уручную, была вырашана шляхам замены іх убудаванымі словамі, атрыманымі з дапамогай такіх моўных мадэляў, як Word2Vec і GloVe. На аснове гэтых убудаваных слоў вынікі эсэ былі прадказаны як задачы рэгрэсіі і класіфікацыі шляхам дадання нейронавай сеткі пасля ўбудаваных слоў. Пры выкарыстанні ўкладанняў, навучаных на вялікім корпусе, назіраецца значнае паляпшэнне ацэнкі эсэ па ўсіх паказчыках, а таксама агульны бал [11]. Тым не менш, самыя ўбудаваныя словы, якія мелі вырашальнае значэнне для павышэння прадукцыйнасці, аказаліся самым вялікім абмежаваннем мадэлі. Паколькі ўбудовы па сутнасці паходзілі з падыходу Bag-of-Words, яны не маглі захапіць ніякай кантэкстнай інфармацыі, якая была часткова зафіксавана ўручную створанымі лінгвістычнымі асаблівасцямі ў папярэдніх мадэлях. Замест дадання ручных функцый і патэнцыйнага паўторнага ўвядзення недахопаў папярэдніх мадэляў праблема недахопу кантэкстнай інфармацыі была вырашана з дапамогай механізму ўвагі з выкарыстаннем LSTM [13] і архітэктур трансфарматара. Праца Васвані і Паласухіна [14] паспяхова распрацавала мадэль BERT з выкарыстаннем трансфарматараў. Падтрымліваючы поспех мадэлі BERT і архітэктур трансфарматараў, быў распрацаваны шквал моўных мадэляў, заснаваных на ўвазе. Цяпер замест убудавання слоў можна атрымаць убудаванне на ўзроўні сказа або дакумента, якое фіксуе кантэкстную інфармацыю. Выкарыстоўваючы гэтыя глыбокія ўбудовы, распрацоўваюцца нейронавыя сеткавыя мадэлі для прагназавання балаў за эсэ (як у якасці класіфікацыйных, так і рэгрэсійных задач).

1.2 Абмежаванні сучасных падыходаў

Нягледзячы на гэты прагрэс, пры выкарыстанні мадэлі BERT існуюць сур'ёзныя абмежаванні. Лотрыдж і інш. (2021) [10] прадэманстраваў адсутнасць надзейнасці мадэлі для гульнявых эсэ, выпадковага ператасавання і эсэ па Вавілоне. Прадукцыйнасць рэзка адрозніваецца ў розных класах і паказчыках. Каб ліквідаваць гэты недахоп, у гэтым даследаванні мы будзем мадэляваць усе паказчыкі адначасова з дапамогай шматзадачнага навучання. Яшчэ адным ключавым абмежаваннем аналізу на аснове BERT з'яўляецца тое, што даўжыня токена ў мадэлі BERT абмежаваная 512. Мы імкнемся вырашыць гэта, выкарыстоўваючы больш прасунутыя архітэктуры, такія як Longformer, якія дазваляюць да 4096 токенаў на дакумент. Для набору даных, які разглядаецца ў гэтым даследаванні (падрабязнасці ў Раздзеле 2.1), больш за 40% дакументаў маюць даўжыню больш за 512 токенаў. Такім чынам, скарачэнне дакумента толькі да 512 токенаў са стандартнай мадэллю BERT прывядзе да істотнай страты ў кантэксце. Трэцім ключавым абмежаваннем розных даследаванняў з'яўляецца абмежаваны набор даных - хоць некалькі даследаванняў былі сканцэнтраваны на AES, кожны з гэтых набораў даных ацэньваецца па-рознаму, і, такім чынам, мадэлі не могуць быць лёгка навучаны на ўсіх наборах даных. Такім чынам, у гэтым даследаванні мы даследуем карыснасць сетак аўтакадавальніка для навучання набораў даных і выкарыстання кадавання, атрыманага ад аўтакадавальніка, для выканання задач AES. Падводзячы вынік, гэта даследаванне даследуе ўплыў розных кадзіровак дакументаў на аснове глыбокага навучання на аўтаматызаваную ацэнку эсэ. Набор даных, метадалогія, эксперыменты і глыбокія ўбудовы, якія разглядаюцца ў гэтым даследаванні, прадстаўлены ў раздзеле 2. Акрамя вар'іравання глыбокіх убудаванняў, мы аналізуем спосабы аб'яднання розных набораў даных AES шляхам навучання глыбокіх кадаванняў у сетцы Autoencoder. Вынікі ўсіх гэтых падыходаў прадстаўлены ў раздзеле 3, а высновы, а таксама ўказанні для далейшых даследаванняў — у раздзеле 4.

2. Метадалогія

2.1 Дадзеныя

Лабараторыя навучальнага агенцтва, Універсітэт штата Джорджыя і Універсітэт Вандэрбільта сабралі вялікую колькасць эсэ ад дзяржаўных і нацыянальных устаноў адукацыі, а таксама некамерцыйных арганізацый. З гэтай калекцыі яны распрацавалі зборнік «Пераканаўчыя эсэ для ацэнкі, выбару і разумення элементаў аргументацыі і дыскурсу» (PERSUADE), які складаецца з аргументацыйных эсэ, напісаных вучнямі 6-12 класаў, і ацэнкі разумення, ведаў і навыкаў тых, хто вывучае англійскую мову. (ELLIPSE), які складаецца з эсэ, напісаных вучнямі англійскай мовы (ELLs) у 8-12 класах.

Корпус ELLIPSE: Корпус ELLIPSE змяшчае больш за 7000 эсэ, напісаных студэнтамі ELL у 8-12 класах. Гэтыя сачыненні напісаны ў рамках дзяржаўнага нарматыўнага ацэнкі пісьма ў 2018-19 і 2019-20 навучальных гадах. Эсэ ў корпусе ELLIPSE анатаваліся людзьмі, якія ацэньвалі ўзровень валодання мовай з дапамогай пяцібальнай рубрыкі ацэнкі, якая ўключала як цэласную, так і аналітычную шкалы. Цэласная шкала была сканцэнтравана на агульным узроўні валодання мовай, паказаным у эсэ, у той час як аналітычныя шкалы ўключалі ацэнкі згуртаванасці, сінтаксісу, фразеалогіі, лексікі, граматыкі і канвенцый. Ацэнка для кожнай аналітычнай меры вагаецца ад 1,0 да 5,0 з крокам 0,5, прычым больш высокія балы адпавядаюць большай кваліфікацыі ў гэтай меры.

Корпус PERSUADE: Корпус PERSUADE змяшчае больш за 25 000 аргументаваных эсэ, напісаных амерыканскімі студэнтамі 6-12 класаў. Гэтыя эсэ былі напісаны ў рамках нацыянальных і дзяржаўных стандартызаваных ацэнак пісьма ў 2010-2020 гадах. Кожнае эсэ ў корпусе PERSUADE было анатавана людзьмі, якія ацэньвалі элементы аргументацыі і дыскурсу, а таксама іерархічныя адносіны паміж элементамі аргументацыі. Анатацыйная рубрыка была распрацавана для ідэнтыфікацыі і ацэнкі элементаў дыскурсу, якія звычайна сустракаюцца ў аргументаваным пісьме.

Для гэтага праекта мы выкарыстоўваем корпус ELLIPSE і адначасова прагназуем ацэнку для шасці аналітычных паказчыкаў: згуртаванасці, сінтаксісу, лексікі, фразеалогіі, граматыкі і ўмоўных пагадненняў. Акрамя таго, мы спрабуем павысіць дакладнасць нашых прагнозаў, выкарыстоўваючы аўтакадавальнік. Ідэя заключаецца ў тым, каб навучыць аўтакадавальнік з дапамогай корпуса ELLIPSE і PERSUADE. Дзякуючы гэтаму працэсу сціснуты вектар функцый з аўтакадавальніка можа захопліваць асаблівасці эсэ, важныя для ацэнкі, якія могуць быць прапушчаныя папярэдне падрыхтаванымі функцыямі моўнай мадэлі.

2.2 Падыход

Як гаварылася раней, мэтай гэтага праекта з'яўляецца прагназаванне ацэнкі шасці аналітычных паказчыкаў: згуртаванасці, сінтаксісу, лексікі, фразеалогіі, граматыкі і канвенцый у аргументацыйных эсэ, напісаных вучнямі 8-12 класаў, якія вывучаюць англійскую мову. Для выканання гэтай задачы мы спачатку распрацоўваем базавую лінію, а потым выкарыстоўваем некалькі падрыхтаваных мадэляў, каб палепшыць базавую лінію.

Базавая лінія : Базавая лінія распрацоўваецца з выкарыстаннем убудаванняў GloVe і двухнакіраванай сеткі LSTM. Для базавай мадэлі мы спачатку выконваем ачыстку даных, напрыклад, выдаляем знакі прыпынку, выдаляем прабелы і г.д., выкарыстоўваючы бібліятэку рэгулярных выразаў, а затым выкарыстоўваем токенізатар слоў з NLTK для токенізацыі эсэ. Сетка LSTM навучаецца на кадзіроўках GloVe эсэ для вываду вектара даўжынёй 6, які прадстаўляе адзнаку для кожнага з вышэйзгаданых шасці аналітычных паказчыкаў. Мы выкарыстоўваем страту сярэдняй квадратнай памылкі (MSELoss) для навучання нейронавай сеткі.

DistilBERT : DistilBERT - гэта невялікая, хуткая і лёгкая мадэль-трансформер, навучаная на аснове перагонкі BERT. Ён мае на 40% менш параметраў, чым bert-base-uncased, і працуе на 60% хутчэй, захоўваючы пры гэтым больш за 95% прадукцыйнасці BERT, вымеранай тэстам разумення мовы GLUE. BERT выкарыстоўвае ўвагу да сябе, каб захапіць кантэкстную інфармацыю з усёй паслядоўнасці [2]. Гэта паляпшае здольнасць мадэлі ацэньваць узоры эсэ і забяспечваць больш дакладную ацэнку. Для гэтай мадэлі мы выкарыстоўваем аўтаматычны токенізатар для токенізацыі эсэ, а затым перадаем гэтыя токены папярэдне падрыхтаванай мадэлі DistilBERT, каб атрымаць вектарнае прадстаўленне эсэ. Затым мы навучаем двухслаёвую нейронавую сетку з дапамогай MSELoss вяртаць 6-мерны вектар вываду, які прадстаўляе балы для кожнага з шасці атрыбутаў запісу, апісаных вышэй.

T5 : T5 або Transformer Text-To-Text Transfer Transformer - гэта мадэль кадавальніка-дэкодэра, папярэдне падрыхтаваная для выканання шматзадачнай сумесі некантраляваных і кантраляваных задач, для якой кожная задача пераўтворыцца ў фармат тэксту ў тэкст. З дапамогай BERT, які папярэдне падрыхтаваны да мэты Masked LM і Next Sentence Prediction, нам трэба асобна наладзіць розныя асобнікі папярэдне падрыхтаванай мадэлі для розных наступных задач, такіх як класіфікацыя паслядоўнасці. Структура пераўтварэння тэксту ў тэкст T5 забяспечвае просты спосаб навучання адной мадэлі на шырокім спектры тэкставых задач з выкарыстаннем той жа функцыі страт і працэдуры дэкадавання. Гэтая структура папярэдняга навучання забяспечвае мадэль «ведамі» агульнага прызначэння, якія паляпшаюць яе прадукцыйнасць пры выкананні наступных задач [12]. Мы выкарысталі аўтаматычны токенізатар для токенізацыі эсэ, а затым перадалі гэтыя токены папярэдне падрыхтаванай мадэлі T5-Base, каб атрымаць вектарнае прадстаўленне эсэ. Затым мы навучаем двухслаёвую нейронавую сетку з дапамогай MSELoss для вяртання 6-мернага выхаднога вектара (падобна DistilBERT).

RoBERTa-base : RoBERTa - яшчэ адна BERT-падобная мадэль мовы ў масках, распрацаваная Facebook. У выпадку RoBERTa дынамічная маскіроўка выкарыстоўваецца на працягу ўсяго навучання для ўсіх эпох, у той час як у BERT маска з'яўляецца статычнай. Дзякуючы гэтаму мадэль вывучае нашмат больш токенаў, чым у BERT. Далейшае паляпшэнне прадукцыйнасці дасягаецца шляхам навучання на значна большым корпусе даных, чым BERT (10x), і большым наборы слоў. Дзякуючы гэтым зменам у навучанні, RoBERTa пераўзыходзіць BERT у большасці задач GLUE і SQuAD [9].

Longformer : Longformer - гэта BERT-падобная мадэль трансфарматара, якая развілася з кантрольна-прапускнога пункта RoBERTa і падрыхтавана як моўная мадэль у масках (MLM) на доўгіх дакументах. Ён падтрымлівае паслядоўнасці даўжынёй да 4096 токенаў. Як правіла, мадэлі на аснове трансфарматараў, якія выкарыстоўваюць механізм самаканцэнтрацыі, не могуць апрацоўваць доўгія паслядоўнасці, таму што патрабаванні да памяці і вылічэнняў растуць квадратычна з даўжынёй паслядоўнасці. Гэта робіць немагчымым эфектыўна апрацоўваць доўгія паслядоўнасці. Longformers вырашаюць гэта ключавое абмежаванне, уводзячы механізм увагі, які лінейна маштабуецца з даўжынёй паслядоўнасці [1]. Ён выкарыстоўвае механізм увагі слізгальнага акна і пашыранага слізгальнага акна, каб захапіць лакальны і глабальны кантэкст. Для мадэлі Longformer мы выкарыстоўваем аналагічны падыход, што і DistilBERT. Мы выкарыстоўваем аўтаматычны токенізатар для токенізацыі эсэ, а затым перадаем гэтыя токены ў папярэдне падрыхтаваную мадэль Longformer, каб атрымаць вектарнае прадстаўленне эсэ. Затым мы навучаем двухслаёвую нейронавую сетку з дапамогай MSELoss для вяртання 6-мернага выхаднога вектара (падобна DistilBERT).

Мы таксама выкарыстоўвалі назапашванне градыентаў для навучання нашых мадэляў на большым памеры партыі, чым наш графічны працэсар Colab, які змог змясціць у сваёй памяці. З-за вялікага памеру мадэлі Longformer мы былі абмежаваныя толькі двума партыямі. Такі невялікі памер партыі прывядзе да нестабільных градыентных вылічэнняў. Мы абыходзім гэта з дапамогай назапашвання градыенту - замест зваротнага распаўсюджвання страт пасля кожнай ітэрацыі мы назапашваем страты і распаўсюджваем памылку толькі пасля пэўнай колькасці пакетаў, каб палепшыць стабільнасць абнаўленняў градыентаў [3].

2.3 Ацэнка

Каб ацаніць дакладнасць прагназуемых балаў нашай мадэлі, мы будзем выкарыстоўваць у якасці метрыкі сярэднеквадратычную памылку (MCRMSE). Метрыка разлічваецца як:

2.4 Эксперыменты

Пасля ўкаранення апісаных вышэй мадэляў мы паспрабавалі правесці некалькі эксперыментаў, каб палепшыць памылку прагназавання гэтых мадэляў. Падрабязнасці гэтых эксперыментаў прыведзены ніжэй:

Квантаванне вываду : у корпусе ELLIPSE адзнака для кожнага аналітычнага паказчыка вагаецца ад 1,0 да 5,0 з крокам 0,5, прычым больш высокія балы адпавядаюць большаму валоданню гэтай мерай. Мы змянілі нашу нейронавую сетку такім чынам, што вывад абмежаваны паміж 1 і 5. Мы зрабілі гэта шляхам уключэння сігмападобнага пласта, праз які праходзіць вывад, а затым памнажаем гэты вывад на 4 і дадаем да яго 1. Акрамя таго, як толькі нейронавая сетка генеруе вынікі, мы выконваем матэматычную аперацыю score = int[(2 * score + 0,5) / 2], каб пераканацца, што вывад павялічваецца толькі з крокам 0,5. Гэтая аперацыя была накіравана на тое, каб паўтарыць фармат зыходных балаў і праверыць, ці паляпшае такая мадыфікацыя дакладнасць.

Узважаны RMSE : у корпусе ELLIPSE адзнака для кожнай аналітычнай меры вагаецца ад 1,0 да 5,0 з крокам 0,5. Аднак размеркаванне кожнага бала ў наборы дадзеных не падобнае. Пэўныя ацэнкі, такія як 2,5, 3 і 3,5, часцей сустракаюцца ў нашым наборы даных для кожнага з аналітычных паказчыкаў, тады як ацэнкі, такія як 1 і 5, сустракаюцца рэдка ва ўсім наборы даных. Каб улічыць гэты дысбаланс, мы выкарысталі функцыю ўзважанай сярэднеквадратычнай памылкі (WRMSE), дзе ў якасці вагі выкарыстоўваецца адваротная частата пэўнага бала, і мы абразаем гэты вага, калі ён надзвычай высокі ў параўнанні з іншымі вагамі.

Архітэктура MultiHead : Як згадвалася ў папярэднім раздзеле, паколькі размеркаванне кожнага бала ў наборы даных не падобнае, мы эксперыментавалі з канчатковай двухслаёвай нейронавай сеткай, прысвечанай меры, для прагназавання балаў. Такім чынам, замест адной выхадной галоўкі, якая прадказвае 6 розных значэнняў балаў, мы ўкаранілі 6 розных выходных галовак для прагназавання балаў для кожнай аналітычнай меры.

Аўтакадавальнік : Набор даных, прадстаўлены для бягучай задачы шматкласнай ацэнкі эсэ, складае ўсяго каля 4 тыс. узораў. Аднак у корпусе ELLIPSE і PERSUADE разам ёсць больш за 180 тысяч эсэ для іншых задач AES, такіх як асобныя балы для цэлых эсэ і частак эсэ. Такім чынам, аўтакадавальнікі выкарыстоўваюцца для выкарыстання гэтай большай базы дадзеных і выканання напаўкантраляванага навучання. Коратка кажучы, кадыроўкі з моўных мадэляў, такіх як BERT, T5, праходзяць праз сетку аўтакадавальніка, навучаную з выкарыстаннем усіх 180 тысяч узораў. Затым альбо кадзіраванне ўзроўню вузкіх месцаў, альбо кадыроўкі моўнай мадэлі з дэкадэрам аўтакадавальніка выкарыстоўваюцца для прагназавання шматкласавых ацэнак з выкарыстаннем 2-слаёвай нейронавай сеткі для галоўкі рэгрэсіі, падобна сцэнарыю з поўным кантролем. Такім чынам, выкарыстоўваючы большы набор немаркіраваных даных для навучання аўтакадавальніка ў якасці прэпрацэсара, мы імкнемся палепшыць прагнозы навучання пад наглядам. У гэтым даследаванні мы разгледзелі абедзве кадыроўкі з паніжаным шумам на аснове кадавання DistilBERT.

3. Вынікі і абмеркаванне

Уплыў папярэдне падрыхтаваных кадаванняў : у табліцы 1 зведзены паказчыкі прадукцыйнасці, атрыманыя шляхам змены папярэдне падрыхтаваных мадэляў, апісаных у раздзеле 2.2. У гэтых серыях кадыроўкі з папярэдне падрыхтаваных мадэляў непасрэдна праходзяць праз 2-слаёвую нейронавую сетку, якая навучаецца з выкарыстаннем страты MSE, і ні адно з патэнцыйных паляпшэнняў, разгледжаных у раздзеле 2.4, не рэалізавана. Паколькі гэта шматкласавая рэгрэсія, прадукцыйнасць мадэляў для кожнай метрыкі паказана ў табліцы 3.

Сярод трансфарматарных архітэктур, пералічаных у табліцы 1, мы бачым, што маскіраваныя моўныя мадэлі DistilBERT, RoBERTa і Longformer працуюць лепш, чым генератыўная мадэль T5 - магчыма таму, што маскіраваныя мадэлі больш настроены на дыскрымінацыйныя задачы з лікавым вывадам. Неабходныя далейшыя даследаванні, каб зрабіць выснову, ці можна гэта абагульніць для некалькіх генератыўных мадэляў мовы. У цэлым, RoBERTa мае найлепшы бал прагназавання сярод розных мадэляў, праўдападобна, дзякуючы значна большаму навучальнаму корпусу і лепшай маскіроўцы.

Табліца 1: Агульная адзнака MCRMSE для розных мадэляў

мадэль	Метрыка MCRMSE
Базавая лінія	1.36
DistilBERT	0,4934
Т5-база	0,5320
Роберта	0,4746
Даўгатворны	0,4899

Уплыў паляпшэння галоўкі рэгрэсіі : Раней мы даследавалі ўплыў розных уваходных дадзеных у галоўку рэгрэсіі (г.зн. шляхам змены папярэдне падрыхтаваных мадэляў і кадавання ў іх), у той час як навучанне галавы рэгрэсіі было нязменным. У гэтым раздзеле мы даследуем эфект вар'іравання навучання галавы рэгрэсіі пры захаванні нязменных кадавання. Раздзел 2.4 пералічвае розныя змены ў навучанні рэгрэсіі, якія разглядаюцца ў гэтым даследаванні. Звярніце ўвагу, што ва ўсім гэтым раздзеле выкарыстоўваецца мадэль DistilBERT, паколькі гэта самая хуткая мадэль і мае меншыя патрабаванні да GPU. Вынікі для розных схем навучання/паляпшэння паказаны ў табліцы 2.

Табліца 2: Ацэнка MCRMSE для розных мадэляў

Эксперыментуйце	MCRMSE
Квантаванне вываду	0,5294
Узважаны RMSE	0,5628
Архітэктура MultiHead	0,508
Аўтакадавальнік шумавіння	0,575

На жаль, ні адзін з гэтых варыянтаў навучання рэгрэсійнай мадэлі не прыводзіць да значнага павышэння дакладнасці прагназавання ў параўнанні з нашымі зыходнымі мадэлямі. Фактычна, метрыка прадукцыйнасці ў наборы праверкі ў табліцы 2 паказвае на падзенне прадукцыйнасці з гэтымі мадыфікацыямі. Незразумела, чаму гэта зніжэнне адбываецца, і неабходна далейшае даследаванне з большым наборам даных, каб пераканацца, што гэта зніжэнне прадукцыйнасці не з'яўляецца артэфактам.

Для ўсіх варыяцый у кадзіроўцы тэксту і рэгрэсіўнай трэніроўцы, мы заўважылі з балаў праверкі MCRMSE для асобных паказчыкаў, што згуртаванасць і граматыку, здаецца, найбольш цяжка прадказаць ва ўсіх мадэлях (гл. Табліцу 3). Гэта можа быць абмежаваннем папярэдне падрыхтаваных моўных мадэляў, якія выкарыстоўваюцца ў AES, а не нашага мадэлявання. Кім і інш. (2020) [5] паказваюць абмежаванні сучасных моўных мадэляў у граматычнай добрай інфармаванасці і даюць напрамкі далейшага прагрэсу ў моўных мадэлях.

Табліца 3: Ацэнка MCRMSE для індывідуальнай аналітычнай меры

Мадэль (або вопыт)	Згуртаванасць	Сінтаксіс	Слоўнікавы запас	Фразеалогія	Граматыка	Умоўнасці
Базавая лінія	1.37	1.35	1.32	1.34	1.44	1.36
дыстыльБЕРТ	0,54	0,51	0,46	0,52	0,57	0,49
Т5-база	0,55	0,52	0,48	0,54	0,58	0,53
Роберта	0,51	0,47	0,42	0,47	0,51	0,46
Даўгатворны	0,54	0,48	0,46	0,49	0,53	0,47
distilBERT + выхад квантавання	0,55	0,53	0,48	0,53	0,57	0,51
distilBERT + WRMSE	0,56	0,56	0,55	0,56	0,61	0,53
distilBERT + Multi Head Arch.	0,53	0,50	0,45	0,51	0,56	0,49
Аўтакадавальнік + distilBERT	0,59	0,56	0,52	0,56	0,61	0,55

4. Заключэнне

У гэтай працы мы даследавалі ўплыў розных папярэдне падрыхтаваных архітэктур і метадаў для навучання кіраўніка рэгрэсіі аўтаматызаванай ацэнцы эсэ, дзе мы ацэньваем кожнае эсэ па шкале ад 1 да 5 па шасці лінгвістычных паказчыках (напрыклад, згуртаванасць, граматыка, слоўнікавы запас). і г.д.). Набор даных узяты з корпуса ELLIPSE, у прыватнасці, падмноства даных, пералічаных у спаборніцтвах Kaggle. Мы разгледзелі пяць архітэктур глыбокага навучання і пяць спосабаў навучання кіраўніка рэгрэсіі і назіралі за выкарыстаннем RoBERTa-base з простым 2-слаёвым узроўнем перадачы для прагназавання балаў, паколькі выхад з некалькіх класаў даў найлепшы вынік.

Як і чакалася, трансфарматарныя архітэктуры значна перасягнулі базавую мадэль GloVe+LSTM. Акрамя таго, у архітэктурах трансфарматараў мы бачым, што маскіраваныя моўныя мадэлі (DistilBERT, RoBERTa, Longformer) даюць лепшую прадукцыйнасць у параўнанні з генератыўнай моўнай мадэллю T5. Нягледзячы на тое, што гэтае назіранне не распаўсюджваецца на ўсе генератыўныя мадэлі, інтуітыўна дамінаванне MLM здаецца паслядоўным, паколькі яны навучаюцца спецыяльна для лічбавых вынікаў.

Яшчэ адно цікавае назіранне гэтага даследавання заключаецца ў тым, што змяненне падрыхтоўкі галавы рэгрэсіі шляхам змены функцый страт, абмежавання выхадных дадзеных і памяншэння памернасці/прыглушэння шуму на аснове аўтакадавальніка разам з пашырэннем даных не палепшыла прадукцыйнасць мадэлі. Гэта даволі нечакана, і мы не да канца разумеем прычыны гэтай з'явы. У будучым даследаванні гэтыя падыходы могуць быць паўтораны з большым наборам даных - гэта дапамагае вызначыць, ці можна абагульніць гэтыя назіранні адносна навучання галавы рэгрэсіі.

Падводзячы вынік, мы заўважылі, што выкарыстанне кадзіровак RoBERTa з 2-слаёвай нейронавай сеткай з прамой перадачай для прагназавання шасці балаў адначасова, падобна шматзадачнаму навучанню, забяспечвае лепшую прадукцыйнасць. У прыватнасці, улічваючы невялікі памер набору даных, відаць, што эфект выкарыстання надзейнай папярэдне падрыхтаванай мадэлі значна паляпшае прагназуючую прадукцыйнасць мадэлі. Акрамя таго, прадукцыйнасць ацэнкі граматыкі эсэ горшая, чым любы іншы паказчык ацэнкі, і гэта ўласціва моўнай мадэлі. Такім чынам, будучыя працы павінны быць сканцэнтраваны на ўдасканаленні моўных мадэляў, каб лепш ахопліваць граматычныя аспекты мовы.

Спасылкі

Із Белтагі, Мэцью Э Пітэрс і Арман Кохан. 2020. Longformer: трансфарматар доўгіх дакументаў. прэпрынт arXiv arXiv:2004.05150 .
Джэйкаб Дэўлін, Мін-Вэй Чанг, Кентан Лі і Крысціна Тутанава. 2018. BERT: Папярэдняя падрыхтоўка глыбокіх двухнакіраваных трансфарматараў для разумення мовы. прэпрынт arXiv arXiv:1810.04805 .
Ёэры Р. Германс, Герасімас Спанакіс і Рыка Мёкель. 2017. Нармалізацыя назапашанага градыенту. У Азіяцкай канферэнцыі па машынным навучанні , старонкі 439–454. ПМЛР.
Зісюань Кэ і Вінцэнт Нг. 2019. Аўтаматызаваная ацэнка эсэ: агляд сучаснага стану. У IJCAI , вып. 19, стар. 6300-6308.
Тэук Кім, Джыхун Чой, Дэніэл Эдмістан і Сан Гу Лі. 2020. Ці ведаюць папярэдне падрыхтаваныя моўныя мадэлі фразы? Простыя, але моцныя асновы для індукцыі граматыкі.
Лабараторыя навучальнага агенцтва. 2022a. Прыз зваротнай сувязі - вывучэнне англійскай мовы.
Лабараторыя навучальнага агенцтва. 2022б. Прыз для зваротнай сувязі - ацэнка студэнцкіх твораў.
Лабараторыя навучальнага агенцтва. 2022c. Прыз зваротнай сувязі - Прагназаванне эфектыўных аргументаў.
Іньхан Лю, Майл От, Наман Гоял, Цзінфэй Ду, Мандар Джошы, Данькі Чэн, Омер Леві, Майк Льюіс, Люк Зэтлмоер і Весялін Стаянаў. 2019. Роберта: надзейна аптымізаваны падыход да падрыхтоўкі да берта. прэпрынт arXiv arXiv:1907.11692.
Сью Лотрыдж, Бэн Годэк, Амір Джафары і Мілан Патэль. 2021. Параўнанне надзейнасці глыбокага навучання і класічных аўтаматызаваных падыходаў да падліку ачкоў у гульнявых стратэгіях. Тэхнічная справаздача - Cambium Assessment Inc.
Хуен Нгуен і Лусіо Дэры. 2016. Нейронавыя сеткі для аўтаматызаванай ацэнкі эсэ. CS224d Стэнфардскія справаздачы: 1-11.
Адам Робертс і Колін Рафел. 2020. Вывучэнне пераноснага навучання з T5: пераўтваральнік перадачы тэксту ў тэкст. Доступ да, старонкі 23–07.
Каве Тагіпур і Хві Тоу Нг. 2016. Нейронны падыход да аўтаматызаванай ацэнкі эсэ. У матэрыялах канферэнцыі 2016 г. па эмпірычных метадах апрацоўкі натуральнай мовы, стар. 1882-1891.
Ноам Шазір Нікі Пармар Якаб Ускарэйт Ліён Джонс Эйдан Н. Гомес Лукаш Кайзер Васвані, Ашыш і Ілля Паласухін. 2017. Увага - усё, што вам трэба. Дасягненні ў нейронавых сістэмах апрацоўкі інфармацыі, 30.

L O A D I N G
. . . comments & more!

About Author

Junaid Syed@junaidsyed

Data Scientist at SLB

Read my stories

ВЕСІЦЬ БІРКІ

machine-learning #ai #bert #deep-learning #multi-task-learning #autoencoders #llm-research #natural-language-processing #hackernoon-top-story

ГЭТЫ АРТЫКУЛ БЫЎ ПРАДСТАЎЛЕНЫ Ў...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas