تتناول هذه الورقة تحديات التقييم الآلي للمقالات (AES)، مع التركيز على صعوبة تقييم المقالات بسبب السمات الذاتية مثل التماسك والقواعد والملاءمة. تركز الدراسة على ستة مقاييس تحليلية وتقترح تحسينات على الأساليب الحالية باستخدام التعلم متعدد المهام وشبكات الترميز التلقائي والنماذج المتقدمة مثل Longformer للتعامل مع المقالات الأطول. وعلى الرغم من التطورات الكبيرة في نماذج مثل BERT، إلا أن قضايا مثل قيود طول الرمز والافتقار إلى الفهم السياقي لا تزال قائمة. تستكشف الورقة الحلول، بما في ذلك ترميزات المستندات، لتحسين دقة وعدالة AES.
المؤلفون:
جونيد سيد، معهد جورجيا للتكنولوجيا
ساي شانباغ، معهد جورجيا للتكنولوجيا
فامسي كريشنا تشاكرافارثي، معهد جورجيا للتكنولوجيا
إن التقييم الآلي للمقالات (AES) هو مهمة كلاسيكية في البرمجة اللغوية العصبية تمت دراستها لعقود عديدة. يتمتع AES بقدر كبير من الأهمية العملية وإمكانات اقتصادية هائلة - يعد AES حجر الزاوية للامتحانات التنافسية الكبيرة (مثل SAT وGRE) وكذلك سوق التعلم عبر الإنترنت المزدهر. قامت العديد من المنظمات الخيرية وغير الربحية مثل مؤسسة بيل وميليندا جيتس ومبادرة زوكربيرج تشان بتمويل العديد من مسابقات Kaggle على AES [6، 7، 8]. ومع ذلك، على الرغم من هذه الجهود، فإن المشكلة بعيدة كل البعد عن الحل بسبب الصعوبات الأساسية في تقييم المقالات. إن تقييم المقالة أمر ذاتي للغاية وينطوي على عوامل مجردة مثل التماسك والقواعد والملاءمة وما إلى ذلك والتي يصعب حسابها. ونتيجة لذلك، فإن الحصول على تسميات لبيانات التدريب مع تصنيف حبيبي للمقالة عبر ميزات مثل القواعد والترابط وما إلى ذلك أمر مكلف للغاية. وبالتالي، فإن مجموعة بيانات التدريب محدودة للغاية مقارنة بمهام معالجة اللغة الطبيعية الأخرى مثل نماذج اللغة (المقنعة)، واستعادة اللغة الطبيعية، ووضع علامات على نقاط البيع، والترجمة الآلية، وما إلى ذلك. وعلاوة على ذلك، فإن توفير درجة إجمالية بسيطة لا يوفر سوى القليل من الملاحظات للطالب ولا يساعد الطلاب في تقدمهم. لذلك، تركز الجهود الحالية على تقييم المقالة على الجوانب التفصيلية بدلاً من درجة واحدة. وهذا يساعد أيضًا في تجنب الإفراط في التجهيز لأن نموذج التنبؤ يجب أن يعمل الآن بشكل جيد على جميع المقاييس وليس مقياسًا واحدًا فقط، ومن الناحية الأساسية، يمكن للمرء أن يفكر في هذا باعتباره نموذجًا متعدد المهام. في الدراسة الحالية، نركز على ستة مقاييس: التماسك، والنحو، والمفردات، والعبارات، والقواعد، والاتفاقيات.
1.1 مسح الأدبيات
قبل العقد الأول من القرن الحادي والعشرين، اعتمدت معظم نماذج AES على ميزات مصنوعة يدويًا صممها خبراء لغويون حاسوبيون [10، 4]. ومع ذلك، كانت هذه النماذج متحيزة عادةً تجاه ميزات معينة (مثل طول المقال) ولا يمكنها التعميم عبر الموضوعات والمقاييس. تمت معالجة التحيز تجاه الميزات المصنوعة يدويًا من خلال استبدالها بتضمينات الكلمات التي تعلمتها نماذج اللغة مثل Word2Vec و GloVe. بناءً على تضمينات الكلمات هذه، تم التنبؤ بدرجات المقال كمهام انحدار وتصنيف عن طريق إضافة شبكة عصبية أسفل تضمينات الكلمات. من خلال استخدام التضمينات المدربة على مجموعة كبيرة، يُرى تحسن كبير في تسجيل المقال لجميع المقاييس بالإضافة إلى النتيجة الإجمالية [11]. ومع ذلك، أثبتت تضمينات الكلمات ذاتها التي كانت حاسمة لتحسينات الأداء أنها أكبر قيد للنموذج. نظرًا لأن التضمينات جاءت في الأساس من نهج حقيبة الكلمات، فإنها لم تتمكن من التقاط أي معلومات سياقية تم التقاطها جزئيًا بواسطة الميزات اللغوية المصنوعة يدويًا في النماذج السابقة. بدلاً من إضافة الميزات المصنوعة يدويًا وإعادة إدخال أوجه القصور في النماذج السابقة، تمت معالجة مشكلة نقص المعلومات السياقية من خلال آلية الانتباه باستخدام LSTM [13] وهندسة المحولات. نجح عمل Vaswani و Polosukhin [14] في تطوير نموذج BERT باستخدام المحولات. وبفضل نجاح نموذج BERT وهندسة المحولات، تم تطوير موجة من نماذج اللغة القائمة على الانتباه. الآن، بدلاً من تضمين الكلمات، يمكن للمرء الحصول على تضمين على مستوى الجملة أو المستند يلتقط المعلومات السياقية. باستخدام هذه التضمينات العميقة، يتم تطوير نماذج الشبكة العصبية للتنبؤ بدرجات المقال (كلاهما كمهام تصنيف وانحدار).
1.2 حدود الأساليب الحالية
على الرغم من هذا التقدم، توجد قيود شديدة مع استخدام نموذج BERT. أظهر Lottridge et al. (2021) [10] عدم قوة النموذج لمقالات اللعبة والخلط العشوائي ومقالات Babel. يختلف الأداء بشكل كبير عبر الفئات والمقاييس المختلفة. لمعالجة هذا العيب، سنقوم في هذا التحقيق بنمذجة جميع المقاييس في وقت واحد من خلال التعلم متعدد المهام. يتمثل أحد القيود الرئيسية الأخرى للتحليل القائم على BERT في أن طول الرمز يقتصر على 512 في نموذج BERT. نسعى إلى معالجة هذا باستخدام هياكل أكثر تقدمًا مثل Longformer والتي تسمح بما يصل إلى 4096 رمزًا لكل مستند. بالنسبة لمجموعة البيانات التي تم النظر فيها في هذه الدراسة (التفاصيل في القسم 2.1)، فإن أكثر من 40٪ من المستندات يزيد طولها عن 512 رمزًا. لذلك، فإن تقليص المستند إلى 512 رمزًا فقط باستخدام نموذج BERT القياسي من شأنه أن يؤدي إلى خسارة كبيرة في السياق. إن القيد الرئيسي الثالث للدراسات المختلفة هو مجموعة البيانات المحدودة - على الرغم من أن دراسات متعددة ركزت على AES، فإن كل مجموعة من هذه البيانات يتم تسجيلها بشكل مختلف، وبالتالي، لا يمكن تدريب النماذج بسهولة على جميع مجموعات البيانات. لذلك، في هذه الدراسة، نبحث في فائدة شبكات التشفير التلقائي للتدريب عبر مجموعات البيانات واستخدام الترميزات المشتقة من التشفير التلقائي لأداء مهام AES. باختصار، تبحث هذه الدراسة في تأثير ترميزات المستندات المختلفة القائمة على التعلم العميق على تسجيل المقالات الآلية. يتم تقديم مجموعة البيانات والمنهجية والتجارب والتضمينات العميقة التي تمت مناقشتها في هذه الدراسة في القسم 2. بالإضافة إلى تنويع التضمينات العميقة، نقوم بتحليل طرق الجمع بين مجموعات بيانات AES المختلفة من خلال تدريب الترميزات العميقة عبر شبكة التشفير التلقائي. يتم تقديم النتائج من كل هذه الأساليب في القسم 3 ويتم تقديم الاستنتاجات بالإضافة إلى التوجيهات لمزيد من التحقيقات في القسم 4.
2. المنهجية
2.1 البيانات
لقد جمع مختبر وكالة التعلم وجامعة ولاية جورجيا وجامعة فاندربيلت عددًا كبيرًا من المقالات من وكالات التعليم الحكومية والوطنية، بالإضافة إلى المنظمات غير الربحية. ومن هذه المجموعة، قاموا بتطوير مجموعة المقالات المقنعة لتقييم واختيار وفهم عناصر الجدال والخطاب (PERSUADE)، والتي تتكون من مقالات جدلية كتبها طلاب في الصفوف من 6 إلى 12، ومجموعة مقالات تقييم إدراك متعلم اللغة الإنجليزية وكفاءته ومهاراته (ELLIPSE)، والتي تتكون من مقالات كتبها متعلمو اللغة الإنجليزية (ELLs) في الصفوف من 8 إلى 12.
مجموعة ELLIPSE: تحتوي مجموعة ELLIPSE على أكثر من 7000 مقال كتبها طلاب اللغة الإنجليزية كلغة ثانية في الصفوف من 8 إلى 12. وقد كُتبت هذه المقالات كجزء من تقييمات الكتابة الموحدة للدولة من العامين الدراسيين 2018-2019 و2019-2020. وقد قام مقيمون بشريون بتعليق المقالات في مجموعة ELLIPSE على مستويات الكفاءة اللغوية باستخدام مقياس تقييم من خمس نقاط يتألف من مقاييس شاملة وتحليلية. ركز المقياس الشامل على مستوى الكفاءة اللغوية الإجمالي الذي يظهر في المقالات، في حين تضمنت المقاييس التحليلية تقييمات التماسك والنحو والعبارات والمفردات والقواعد والاتفاقيات. تتراوح النتيجة لكل مقياس تحليلي من 1.0 إلى 5.0 بزيادات قدرها 0.5 مع درجات أعلى تتوافق مع الكفاءة الأكبر في هذا المقياس.
مجموعة PERSUADE: تحتوي مجموعة PERSUADE على أكثر من 25000 مقال جدلي كتبه طلاب أمريكيون في الصفوف من 6 إلى 12. وقد كُتبت هذه المقالات كجزء من تقييمات الكتابة الموحدة على المستوى الوطني والولائي من عام 2010 إلى عام 2020. وقد قام مقيمون بشريون بتعليق كل مقال في مجموعة PERSUADE على عناصر الجدال والخطاب بالإضافة إلى العلاقات الهرمية بين عناصر الجدال. وقد تم تطوير معيار التعليق لتحديد وتقييم عناصر الخطاب الشائعة في الكتابة الجدالية.
بالنسبة لهذا المشروع، نستخدم مجموعة ELLIPSE ونتوقع في نفس الوقت النتيجة للمقاييس التحليلية الستة: التماسك، والنحو، والمفردات، والعبارات، والقواعد، والاتفاقيات. بالإضافة إلى ذلك، نحاول تحسين دقة التنبؤ لدينا من خلال استخدام مشفر ذاتي. والفكرة هي تدريب مشفر ذاتي باستخدام مجموعة ELLIPSE وPERSUADE. ومن خلال هذه العملية، قد يكون متجه الميزات المضغوط من المشفر التلقائي قادرًا على التقاط ميزات المقالات الأساسية للتقييم والتي قد تفوتها ميزات نموذج اللغة المدرب مسبقًا.
2.2 النهج
كما ذكرنا سابقًا، فإن هدف هذا المشروع هو التنبؤ بنتيجة ستة مقاييس تحليلية: التماسك، والنحو، والمفردات، والعبارات، والقواعد، والاتفاقيات في المقالات الجدلية التي كتبها متعلمو اللغة الإنجليزية في الصفوف من الثامن إلى الثاني عشر. لهذه المهمة، نقوم أولاً بتطوير خط الأساس ثم استخدام نماذج متعددة مدربة مسبقًا لتحسين خط الأساس.
خط الأساس : تم تطوير خط الأساس باستخدام تضمينات GloVe وشبكة LSTM ثنائية الاتجاه. بالنسبة لنموذج خط الأساس، نقوم أولاً بتنظيف البيانات أي إزالة علامات الترقيم وإزالة المسافات البيضاء وما إلى ذلك باستخدام مكتبة regex ثم نستخدم أداة تقسيم الكلمات من NLTK لتقسيم المقالات إلى أجزاء. يتم تدريب شبكة LSTM على ترميزات GloVe للمقالات لإخراج متجه بطول 6 يمثل النتيجة لكل من المقاييس التحليلية الستة المذكورة أعلاه. نستخدم خسارة الخطأ التربيعي المتوسط (MSELoss) لتدريب الشبكة العصبية.
DistilBERT : DistilBERT هو نموذج محول صغير وسريع وخفيف تم تدريبه عن طريق تقطير قاعدة BERT. يحتوي على معلمات أقل بنسبة 40% من bert-base-uncased ويعمل بشكل أسرع بنسبة 60% مع الحفاظ على أكثر من 95% من أداء BERT كما تم قياسه على معيار فهم اللغة GLUE. يستخدم BERT الانتباه الذاتي لالتقاط المعلومات السياقية من التسلسل بأكمله [2]. وهذا يحسن قدرة النموذج على تقييم عينات المقالات وتوفير درجة أكثر دقة. بالنسبة لهذا النموذج، نستخدم أداة تقسيم تلقائية لتقسيم المقالات ثم نمرر هذه الرموز إلى نموذج DistilBERT المدرب مسبقًا للحصول على تمثيل متجه للمقالات. ثم نقوم بتدريب شبكة عصبية ثنائية الطبقات باستخدام MSELoss لإرجاع متجه إخراج سداسي الأبعاد يمثل الدرجات لكل من سمات الكتابة الست الموضحة أعلاه.
T5 : T5 أو محول نقل النص إلى نص هو نموذج ترميز وفك تشفير مدرب مسبقًا على مزيج متعدد المهام من المهام الخاضعة للإشراف وغير الخاضعة للإشراف، حيث يتم تحويل كل مهمة إلى تنسيق نص إلى نص. مع BERT، الذي تم تدريبه مسبقًا على هدف Masked LM وNext Sentence Prediction، نحتاج إلى ضبط حالات مختلفة من النموذج المدرب مسبقًا بشكل منفصل على مهام لاحقة مختلفة مثل تصنيف التسلسل. يوفر إطار عمل النص إلى نص الخاص بـ T5 طريقة بسيطة لتدريب نموذج واحد على مجموعة متنوعة من مهام النص باستخدام نفس دالة الخسارة وإجراء فك التشفير. يوفر إطار العمل هذا للتدريب المسبق للنموذج "معرفة" عامة الغرض تعمل على تحسين أدائه في المهام اللاحقة [12]. لقد استخدمنا أداة ترميز تلقائية لترميز المقالات ثم مررنا هذه الرموز إلى نموذج T5-Base المدرب مسبقًا للحصول على تمثيل متجه للمقالات. نقوم بعد ذلك بتدريب شبكة عصبية مكونة من طبقتين باستخدام MSELoss لإرجاع متجه الإخراج سداسي الأبعاد (على غرار DistilBERT).
قاعدة RoBERTa : RoBERTa هو نموذج لغة مقنع آخر يشبه BERT طورته شركة Facebook. في حالة RoBERTa، يتم استخدام القناع الديناميكي طوال التدريب لجميع العصور، بينما في BERT يكون القناع ثابتًا. من خلال هذا، يتعلم النموذج عددًا أكبر بكثير من الرموز مقارنةً بـ BERT. يتم تحقيق المزيد من تحسين الأداء من خلال التدريب على مجموعة بيانات أكبر بكثير من BERT (10x) ومجموعة مفردات أكبر. من خلال هذه التغييرات في التدريب، يتفوق RoBERTa على BERT في معظم مهام GLUE وSQuAD [9].
Longformer : Longformer هو نموذج محول يشبه BERT والذي تطور من نقطة تفتيش RoBERTa وتم تدريبه كنموذج لغة مقنعة (MLM) على المستندات الطويلة. وهو يدعم تسلسلات يصل طولها إلى 4096 رمزًا. عادةً، لا تتمكن النماذج القائمة على المحول والتي تستخدم آلية الانتباه الذاتي من معالجة التسلسلات الطويلة لأن متطلبات الذاكرة والحوسبة تنمو بشكل تربيعي مع طول التسلسل. وهذا يجعل من غير الممكن معالجة التسلسلات الطويلة بكفاءة. تعالج Longformer هذا القيد الرئيسي من خلال تقديم آلية انتباه تتناسب خطيًا مع طول التسلسل [1]. وهي تستخدم نافذة منزلقة وآلية انتباه نافذة منزلقة موسعة لالتقاط السياق المحلي والعالمي. بالنسبة لنموذج Longformer، نستخدم نهجًا مشابهًا لـ DistilBERT. نستخدم أداة ترميز تلقائية لترميز المقالات ثم نمرر هذه الرموز إلى نموذج Longformer المدرب مسبقًا للحصول على تمثيل متجه للمقالات. نقوم بعد ذلك بتدريب شبكة عصبية مكونة من طبقتين باستخدام MSELoss لإرجاع متجه الإخراج سداسي الأبعاد (على غرار DistilBERT).
لقد استخدمنا أيضًا تراكم التدرج لتدريب نماذجنا على حجم دفعة أكبر مما كانت وحدة معالجة الرسوميات في وقت تشغيل Colab قادرة على احتواءه في ذاكرتها. ونظرًا للحجم الكبير لنموذج Longformer، فقد اقتصرنا على حجم دفعة مكون من دفعتين فقط. سيؤدي مثل هذا الحجم الصغير للدفعة إلى حسابات تدرج غير مستقرة. نتغلب على هذا من خلال تراكم التدرج - بدلاً من الانتشار الخلفي للخسارة بعد كل تكرار، نقوم بتجميع الخسارة ونشر الخطأ الخلفي فقط بعد عدد معين من الدفعات لتحسين استقرار تحديثات التدرج [3].
2.3 التقييم
لتقييم دقة النتائج المتوقعة لنموذجنا، سنستخدم متوسط الجذر التربيعي لمتوسط الخطأ العمودي (MCRMSE) كمقياس. يتم حساب المقياس على النحو التالي:
2.4 التجارب
بعد تنفيذ النماذج الموضحة أعلاه، قمنا بإجراء بعض التجارب لتحسين خطأ التنبؤ بهذه النماذج. فيما يلي تفاصيل هذه التجارب:
كمية الإخراج : في مجموعة ELLIPSE، تتراوح النتيجة لكل مقياس تحليلي من 1.0 إلى 5.0 بزيادات قدرها 0.5 مع درجات أعلى تتوافق مع كفاءة أكبر في هذا المقياس. لقد قمنا بتعديل شبكتنا العصبية بحيث يتم تقييد الإخراج بين 1 و 5. لقد فعلنا ذلك من خلال دمج طبقة سيجمايد يمر من خلالها الإخراج ثم نضرب هذا الإخراج في 4 ونضيف 1 إليه. علاوة على ذلك، بمجرد إنشاء النتائج من الشبكة العصبية، نقوم بإجراء عملية حسابية score= int[(2* score + 0.5) / 2] للتأكد من أن الإخراج يزيد بخطوات قدرها 0.5 فقط. تهدف هذه العملية إلى تكرار تنسيق النتائج الأصلية والتحقق مما إذا كان مثل هذا التعديل يحسن الدقة.
RMSE الموزون : في مجموعة ELLIPSE، تتراوح النتيجة لكل مقياس تحليلي من 1.0 إلى 5.0 بزيادات قدرها 0.5. ومع ذلك، فإن توزيع كل درجة في مجموعة البيانات ليس متشابهًا. تحدث درجات معينة مثل 2.5 و3 و3.5 بشكل متكرر في مجموعة البيانات الخاصة بنا لكل مقياس تحليلي بينما تحدث درجات مثل 1 و5 بشكل نادر في جميع أنحاء مجموعة البيانات. ولحساب هذا الخلل، استخدمنا دالة خطأ متوسط الجذر التربيعي الموزون (WRMSE) حيث يتم استخدام معكوس تردد درجة معينة كوزن ونقوم بقص هذا الوزن إذا كان مرتفعًا للغاية مقارنة بالأوزان الأخرى.
هندسة MultiHead : كما ذكرنا في القسم السابق، نظرًا لأن توزيع كل درجة في مجموعة البيانات ليس متشابهًا، فقد جربنا الحصول على شبكة عصبية نهائية مكونة من طبقتين خاصة بالمقياس للتنبؤ بالدرجات. لذا بدلاً من رأس إخراج واحد يتنبأ بست قيم درجات مختلفة، قمنا بتنفيذ 6 رؤوس إخراج مختلفة للتنبؤ بالدرجة لكل مقياس تحليلي.
المشفر التلقائي : مجموعة البيانات المقدمة للمهمة الحالية لتسجيل درجات متعددة الفئات لمقال ما تتكون من حوالي 4 آلاف عينة فقط. ومع ذلك، في مجموعة ELLIPSE وPERSUADE معًا، يوجد أكثر من 180 ألف مقال لمهام AES أخرى، مثل الدرجات الفردية للمقالات بأكملها وأجزاء من المقالات. لذلك، تُستخدم المشفرات التلقائية للاستفادة من قاعدة البيانات الأكبر هذه وأداء التعلم شبه الخاضع للإشراف. باختصار، يتم تمرير الترميزات من نماذج اللغة مثل BERT وT5 عبر شبكة مشفر تلقائي مدربة باستخدام جميع العينات البالغ عددها 180 ألف عينة. بعد ذلك، يتم استخدام إما ترميز طبقة عنق الزجاجة أو ترميزات نموذج اللغة الخالية من الضوضاء من جزء فك التشفير من المشفر التلقائي للتنبؤ بالدرجات متعددة الفئات باستخدام شبكة عصبية من طبقتين لرأس الانحدار، على غرار السيناريو الخاضع للإشراف الكامل. وبالتالي، من خلال الاستفادة من مجموعة أكبر من البيانات غير المصنفة لتدريب مشفر تلقائي كمعالج أولي، فإننا نسعى إلى تحسين تنبؤات التعلم الخاضع للإشراف. في هذه الدراسة، نظرنا في كل من الترميزات الخالية من الضوضاء استنادًا إلى ترميزات DistilBERT.
3. النتائج والمناقشة
تأثير الترميزات المدربة مسبقًا : يلخص الجدول 1 مقياس الأداء الذي تم الحصول عليه من خلال تغيير النماذج المدربة مسبقًا الموضحة في القسم 2.2. في هذه التشغيلات، يتم تمرير الترميزات من النماذج المدربة مسبقًا مباشرة عبر شبكة عصبية مكونة من طبقتين يتم تدريبها باستخدام خسارة الخطأ المتوسط، ولا يتم تنفيذ أي من التحسينات المحتملة التي تمت مناقشتها في القسم 2.4. نظرًا لأن هذا انحدار متعدد الفئات، فإن أداء النماذج لكل مقياس تسجيل يظهر في الجدول 3.
من بين بنيات المحولات المدرجة في الجدول 1، نرى أن نماذج اللغة المقنعة DistilBERT وRoBERTa وLongformer تعمل بشكل أفضل من النموذج التوليدي T5 - ربما لأن النماذج المقنعة أكثر ضبطًا للمهام التمييزية ذات المخرجات الرقمية. هناك حاجة إلى مزيد من البحث لاستنتاج ما إذا كان يمكن تعميم ذلك على نماذج لغة توليدية متعددة. بشكل عام، يتمتع RoBERTa بأفضل درجة تنبؤ بين النماذج المختلفة، ويرجع ذلك بشكل معقول إلى مجموعة التدريب الأكبر بكثير والإخفاء المتفوق.
الجدول 1: إجمالي درجة MCRMSE لمختلف النماذج
نموذج
مقياس MCRMSE
خط الأساس
1.36
ديستيلبيرت
0.4934
قاعدة T5
0.5320
روبرتا
0.4746
طويل القامة
0.4899
تأثير التحسينات على رأس الانحدار : في السابق، استكشفنا تأثير تغيير المدخلات على رأس الانحدار (أي عن طريق تغيير النماذج المدربة مسبقًا والترميزات الموجودة فيها)، مع الحفاظ على ثبات تدريب رأس الانحدار. في هذا القسم، نستكشف تأثير تغيير تدريب رأس الانحدار مع الحفاظ على ثبات الترميزات. يسرد القسم 2.4 التغييرات المختلفة في تدريب الانحدار التي تم استكشافها في هذه الدراسة. لاحظ أنه في جميع أنحاء هذا القسم، يتم استخدام نموذج DistilBERT لأنه أسرع نموذج ولديه متطلبات وحدة معالجة رسومية أقل. تظهر نتائج مخططات/تحسينات التدريب المختلفة في الجدول 2.
الجدول 2: درجة MCRMSE لمختلف النماذج
تجربة
مكرمس
كمية الإخراج
0.5294
RMSE المرجح
0.5628
هندسة متعددة الرؤوس
0.508
إزالة الضوضاء من المشفر التلقائي
0.575
لسوء الحظ، لا تؤدي أي من هذه التغييرات في تدريب نموذج الانحدار إلى تحسن كبير في دقة التنبؤ عند مقارنتها بنماذجنا الأصلية. في الواقع، يشير مقياس الأداء في مجموعة التحقق في الجدول 2 إلى انخفاض في الأداء مع هذه التعديلات. ليس من الواضح سبب حدوث هذا الانخفاض، ومن الضروري إجراء المزيد من الدراسة باستخدام مجموعة بيانات أكبر للتحقق من أن هذا الانخفاض في الأداء ليس من صنع الإنسان.
بالنسبة لجميع الاختلافات في ترميز النص وتدريب رأس الانحدار، نلاحظ من درجات MCRMSE للتحقق من صحة التدابير الفردية أن التماسك والقواعد النحوية يبدو أنهما الأصعب في التنبؤ عبر جميع النماذج (انظر الجدول 3). قد يكون هذا قيدًا على نماذج اللغة المدربة مسبقًا المستخدمة في AES وليس نمذجتنا. يوضح كيم وآخرون (2020) [5] حدود نماذج اللغة الحالية في كونها مطلعة جيدًا على القواعد النحوية وتوفر توجيهات لمزيد من التقدم في نماذج اللغة.
الجدول 3: درجة MCRMSE للمقياس التحليلي الفردي
النموذج (أو التجربة)
التماسك
بناء الجملة
مفردات
العبارات
قواعد اللغة
الاتفاقيات
خط الأساس
1.37
1.35
1.32
1.34
1.44
1.36
تقطير بيرت
0.54
0.51
0.46
0.52
0.57
0.49
قاعدة T5
0.55
0.52
0.48
0.54
0.58
0.53
روبرتا
0.51
0.47
0.42
0.47
0.51
0.46
طويل القامة
0.54
0.48
0.46
0.49
0.53
0.47
distilBERT + كمية الإخراج
0.55
0.53
0.48
0.53
0.57
0.51
تقطير BERT + WRMSE
0.56
0.56
0.55
0.56
0.61
0.53
distilBERT + قوس متعدد الرؤوس.
0.53
0.50
0.45
0.51
0.56
0.49
مُشفِّر تلقائي + distilBERT
0.59
0.56
0.52
0.56
0.61
0.55
4. الخاتمة
في هذا العمل، قمنا بالتحقيق في تأثير العديد من البنيات والأساليب المدربة مسبقًا لتدريب رأس الانحدار على مهمة تسجيل المقالات الآلية، حيث نقوم بتسجيل كل مقال على مقياس من 1 إلى 5 لستة مقاييس لغوية (على سبيل المثال، التماسك، والقواعد، والمفردات، وما إلى ذلك). تم أخذ مجموعة البيانات من مجموعة ELLIPSE، وتحديدًا المجموعة الفرعية للبيانات المدرجة في مسابقات Kaggle. لقد أخذنا في الاعتبار خمس بنيات تعلم عميق وخمس طرق لتدريب رأس الانحدار ولاحظنا استخدام قاعدة RoBERTa مع طبقة تغذية أمامية بسيطة من طبقتين للتنبؤ بالنتائج حيث أعطى الناتج متعدد الفئات أفضل نتيجة.
كما هو متوقع، تفوقت بنيات المحولات بشكل كبير على النموذج الأساسي لـ GloVe+LSTM. وعلاوة على ذلك، داخل بنيات المحولات، نرى أن نماذج اللغة المقنعة (DistilBERT وRoBERTa وLongformer) تقدم أداءً متفوقًا عند مقارنتها بنموذج اللغة التوليدية T5. وعلى الرغم من أن هذه الملاحظة لا تعمم على جميع النماذج التوليدية، إلا أن هيمنة MLM تبدو متسقة بشكل حدسي حيث يتم تدريبها خصيصًا للمخرجات الرقمية.
ومن الملاحظات الأخرى المثيرة للاهتمام في هذه الدراسة أن تغيير تدريب رأس الانحدار عن طريق تغيير وظائف الخسارة، وتقييد المخرجات، وتقليل/إزالة الضوضاء من الأبعاد المستندة إلى المشفر التلقائي، إلى جانب زيادة البيانات، لم يحسن أداء النموذج. وهذا أمر غير متوقع إلى حد ما، ولا نفهم تمامًا الأسباب وراء هذه الظاهرة. وفي دراسة مستقبلية، قد يتم تكرار هذه الأساليب مع مجموعة بيانات أكبر - وهذا يساعد في تحديد ما إذا كان من الممكن تعميم هذه الملاحظات المتعلقة بتدريب رأس الانحدار.
باختصار، نلاحظ أن استخدام ترميزات RoBERTa مع شبكة عصبية ذات تغذية أمامية من طبقتين للتنبؤ بالنتائج الست في وقت واحد، على غرار التعلم متعدد المهام، يوفر أفضل أداء. وعلى وجه الخصوص، نظرًا لصغر حجم مجموعة البيانات، يُرى أن تأثير استخدام نموذج قوي مدرب مسبقًا يحسن بشكل كبير الأداء التنبئي للنموذج. أيضًا، يكون الأداء في تقييم قواعد اللغة في المقالة أسوأ من أي مقياس تقييم آخر، وهذا متأصل في نموذج اللغة. وبالتالي، يجب أن تركز الأعمال المستقبلية على تحسين نماذج اللغة لالتقاط الجوانب النحوية للغة بشكل أفضل.
Joeri R Hermans وGerasimos Spanakis وRico Möckel. 2017. تطبيع التدرج التراكمي. في المؤتمر الآسيوي للتعلم الآلي ، الصفحات 439-454. PMLR.
زيكسوان كي وفينسنت نج. 2019. التقييم الآلي للمقالات: دراسة استقصائية عن حالة الفن. في IJCAI ، المجلد 19، ص 6300-6308.
تايوك كيم، وجيهون تشوي، ودانييل إدميستون، وسانج-جو لي. 2020. هل نماذج اللغة المدربة مسبقًا على دراية بالعبارات؟ أسس بسيطة ولكنها قوية لاستنتاج القواعد النحوية.
مختبر وكالة التعلم. 2022أ. جائزة ردود الفعل - تعلم اللغة الإنجليزية.
مختبر وكالة التعلم. 2022ب. جائزة الملاحظات - تقييم كتابات الطلاب.
مختبر وكالة التعلم. 2022ج. جائزة التغذية الراجعة - توقع الحجج الفعالة.
آدم روبرتس وكولين رافيل. 2020. استكشاف التعلم بالتحويل باستخدام T5: محول التحويل من نص إلى نص. تم الوصول إليه في الصفحات 23–07.
كافيه تاجيبور وهوي تو نج. 2016. نهج عصبي لتقييم المقالات آليًا. في وقائع مؤتمر 2016 حول الأساليب التجريبية في معالجة اللغة الطبيعية، ص 1882-1891.
نوام شازير، نيكي بارمار، جاكوب أوسكوريت، ليون جونز، أيدان إن. جوميز، لوكاس، كايزر فاسواني، آشيش، وإيليا بولوسوخين. 2017. الانتباه هو كل ما تحتاجه. التطورات في أنظمة معالجة المعلومات العصبية، 30.