Skrywers:
(1) Jianhui Pang, van die Universiteit van Macau, en werk is gedoen toe Jianhui Pang en Fanghua Ye by Tencent AI Lab ([email protected]) studeer het;
(2) Fanghua Ye, University College London, en werk is gedoen toe Jianhui Pang en Fanghua Ye by Tencent AI Lab ([email protected]) geinterneer het;
(3) Derek F. Wong, Universiteit van Macau; (4) Longyue Wang, Tencent AI Lab, en ooreenstemmende skrywer.
Tabel van skakels
Abstrakte en 1 Inleiding
2 Verwante werk
3 Anker-gebaseerde groot taalmodelle
3.1 Agtergrond
3.2 Anker-gebaseerde self-aandagnetwerke
3.3 Ankergebaseerde afleiding
4 Eksperimente en 4.1 Ons implementering
4.2 Data en Opleidingsprosedure
4.3 Evaluering
5 resultate
6 Ontleding
7 Gevolgtrekking, beperkings, etiekverklaring en verwysings
'N Meer eksperimentele resultate
B Data-instellings
4.3 Evaluering
In ons ondersoek gebruik ons 'n diverse versameling maatstawwe met verskillende tekslengtes om ons uitkomste te evalueer, insluitend OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) en ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al. , 2017), en BoolQ (Clark et al., 2019). Hierdie maatstawwe verskaf 'n omvattende evaluering van verskeie aspekte, insluitend redenering, begrip, begrip van die fisiese wêreld en voorspelling van toekomstige gebeure. Dit is belangrik dat dit tekste van verskillende lengtes dek, wat 'n deeglike assessering van ons model se prestasie oor diverse take en tekskompleksiteite fasiliteer, wat wissel van korter invoerkontekste in OBQA tot langer tekste in BoolQ. Om die akkuraatheid en doeltreffendheid van ons modelle te meet, evalueer ons hulle oor drie dimensies deur gebruik te maak van drie afsonderlike maatstawwe vir beide nulskoot- en vyfskoot-instellings. Vir AnLLMAC in die vyf-skoot-omgewing, inkorporeer ons die ankerteken aan die einde van elke demonstrasie.
• Akkuraatheid (Acc). Hierdie konvensionele maatstaf word gebruik om die voorspelling akkuraatheid van modelle te meet. In ooreenstemming met vorige studies (Gao et al., 2023), kies ons die opsies met die hoogste waarskynlikhede as voorspellings en bereken akkuraatheid deur die goudstandaard-etikette te gebruik.
• Sleutels/waardes-kasvermindering (C⇓). In die konteks van die vyfskoot-evaluering, kan die demonstrasies in GPU-geheue gekas word vir daaropvolgende hergebruik. Nietemin kan uitgebreide demonstrasies verhoogde geheueverbruik vereis. Hierdie maatstaf is ontwerp om die geheuedoeltreffendheid van die AnSAN-tegniek te assesseer.
• Inferensieversnellingsverhouding (T⇑). Soortgelyk aan Wang et al. (2023), deur gebruik te maak van die gekaste sleutels/waardes, bied ons die Inferensieversnellingsverhouding aan, wat dien as 'n aanduiding van die afleidingsdoeltreffendheid van die AnSAN-tegniek.
Let daarop dat ons eers volledige aandagafleidingsresultate vir alle modelle rapporteer, en dan resultate aanbied met die AnSAN-metode (+AnSAN) toegepas, wat volgorde-inligting in ankertekens saampers.
Hierdie vraestel is onder CC BY 4.0 DEED-lisensie.