Waandishi:
(1) Jianhui Pang, kutoka Chuo Kikuu cha Macau, na kazi ilifanyika wakati Jianhui Pang na Fanghua Ye walipokuwa wakifanya kazi katika Tencent AI Lab ([email protected]);
(2) Fanghua Ye, Chuo Kikuu cha London, na kazi ilifanyika wakati Jianhui Pang na Fanghua Ye walipokuwa wakifanya kazi katika Tencent AI Lab ([email protected]);
(3) Derek F. Wong, Chuo Kikuu cha Macau;
(4) Longyue Wang, Tencent AI Lab, na mwandishi sambamba.
Miundo 3 ya Lugha Kubwa yenye msingi wa Nanga
3.2 Mitandao ya Kujizingatia yenye Anchor
3.3 Maelekezo yenye msingi wa Nanga
4 Majaribio na 4.1 Utekelezaji Wetu
4.2 Utaratibu wa Takwimu na Mafunzo
7 Hitimisho, Mapungufu, Taarifa ya Maadili, na Marejeleo
Katika uchunguzi wetu, tunatumia mkusanyo mbalimbali wa vigezo vyenye urefu tofauti wa maandishi ili kutathmini matokeo yetu, ikiwa ni pamoja na OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-rahisi. (ARC-e) na ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al. , 2017), na BoolQ (Clark et al., 2019). Vigezo hivi hutoa tathmini ya kina ya vipengele mbalimbali, ikiwa ni pamoja na hoja, ufahamu, uelewa wa ulimwengu wa kimwili, na kutabiri matukio ya baadaye. Muhimu zaidi, yanashughulikia maandishi ya urefu tofauti, kuwezesha tathmini ya kina ya utendakazi wa muundo wetu katika kazi mbalimbali na utata wa maandishi, kuanzia miktadha mifupi ya ingizo katika OBQA hadi maandishi marefu katika BoolQ. Ili kupima usahihi na ufanisi wa miundo yetu, tunaitathmini katika vipimo vitatu kwa kutumia vipimo vitatu tofauti kwa mipangilio ya risasi sifuri na tano. Kwa AnLLMAC katika mpangilio wa picha tano, tunajumuisha tokeni ya nanga mwishoni mwa kila onyesho.
• Usahihi (Acc). Kipimo hiki cha kawaida hutumika kupima usahihi wa utabiri wa miundo. Kwa mujibu wa tafiti za awali (Gao et al., 2023), tunachagua chaguo zilizo na uwezekano mkubwa zaidi kama utabiri na kukokotoa usahihi kwa kutumia lebo za viwango vya dhahabu.
• Kupunguza Akiba za Funguo/Thamani (C⇓). Katika muktadha wa tathmini ya picha tano, maonyesho yanaweza kuhifadhiwa katika kumbukumbu ya GPU kwa matumizi tena ya baadaye. Walakini, maonyesho ya muda mrefu yanaweza kuhitaji kuongezeka kwa matumizi ya kumbukumbu. Kipimo hiki kimeundwa ili kutathmini ufanisi wa kumbukumbu wa mbinu ya AnSAN.
• Uwiano wa Kuongeza Kasi ya Maelekezo (T⇑). Sawa na Wang et al. (2023), kwa herufi kubwa kwa funguo/thamani zilizoakibishwa, tunawasilisha uwiano wa kuongeza kasi ya Maelekezo, ambao hutumika kama kiashirio cha ufanisi wa makisio wa mbinu ya AnSAN.
Kumbuka kwamba tunaripoti kwanza matokeo kamili ya makisio ya usikivu kwa miundo yote, kisha tuwasilishe matokeo kwa kutumia mbinu ya AnSAN (+AnSAN), ikibana maelezo ya mfuatano kuwa tokeni za kuunga mkono.
Karatasi hii chini ya leseni ya CC BY 4.0 DEED.