මිණුම් සලකුණු AnLLMs: OpenBookQA සිට BoolQ දක්වා තීක්ෂ්ණ බුද්ධිය

විසින් Anchoring2m2024/10/10

දිග වැඩියි; කියවීමට

මෙම කොටසේදී, තර්ක කිරීමේ සහ අවබෝධ කිරීමේ කාර්යයන් පිළිබඳ ආදර්ශ කාර්ය සාධනය තක්සේරු කිරීමට OpenBookQA සහ BoolQ ඇතුළු මිණුම් සලකුණු පරාසයක් භාවිතා කරමින් අපි AnLLMs ඇගයීමට ලක් කරමු. අපි නිරවද්‍යතාව, මතක කාර්යක්ෂමතාව (යතුරු/අගය හැඹිලි අඩු කිරීම) සහ අනුමාන ත්වරණය මැන බලමු. විවිධ සන්දර්භයන් තුළ AnLLMs කෙතරම් හොඳින් ක්‍රියා කරයිද යන්න ප්‍රතිඵල මගින් පෙන්නුම් කරයි, කාර්යක්ෂමතාව සහ සඵලතාවය ඉහළ නැංවීම සඳහා AnSAN ක්‍රමය භාවිතා කරයි.

featured image - මිණුම් සලකුණු AnLLMs: OpenBookQA සිට BoolQ දක්වා තීක්ෂ්ණ බුද්ධිය

කර්තෘ:

(1) Jianhui Pang, Macau විශ්ව විද්‍යාලයෙන්, සහ Jianhui Pang සහ Fanghua Ye Tencent AI Lab ([email protected]) හි සීමාවාසිකව සිටියදී වැඩ කරන ලදී;

(2) Fanghua Ye, University College London, සහ Jianhui Pang සහ Fanghua Ye Tencent AI Lab ([email protected]) හි සීමාවාසිකව සිටියදී වැඩ සිදු කරන ලදී;

(3) ඩෙරෙක් එෆ් වොං, මැකාවු විශ්වවිද්‍යාලය; (4) Longyue Wang, Tencent AI Lab, සහ අනුරූප කර්තෘ.

සබැඳි වගුව

සාරාංශය සහ 1 හැඳින්වීම

2 අදාළ වැඩ

3 නැංගුරම් මත පදනම් වූ විශාල භාෂා ආකෘති

3.1 පසුබිම

3.2 නැංගුරම් මත පදනම් වූ ස්වයං අවධානය ජාල

3.3 නැංගුරම් මත පදනම් වූ නිගමනය

4 අත්හදා බැලීම් සහ 4.1 අපගේ ක්‍රියාත්මක කිරීම

4.2 දත්ත සහ පුහුණු පටිපාටිය

4.3 ඇගයීම

5 ප්රතිඵල

6 විශ්ලේෂණය

7 නිගමනය, සීමාවන්, ආචාර ධර්ම ප්‍රකාශය සහ යොමු කිරීම්

තවත් පර්යේෂණාත්මක ප්රතිඵල

B දත්ත සැකසුම්

4.3 ඇගයීම

අපගේ විමර්ශනයේදී, OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy ඇතුළුව අපගේ ප්‍රතිඵල ඇගයීම සඳහා විවිධ පෙළ දිග සහිත විවිධ මිණුම් සලකුණු එකතුවක් අපි භාවිතා කරමු. (ARC-e) සහ ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al. , 2017), සහ BoolQ (Clark et al., 2019). මෙම මිණුම් සලකුණු තර්කනය, අවබෝධය, භෞතික ලෝකය පිළිබඳ අවබෝධය සහ අනාගත සිදුවීම් පුරෝකථනය කිරීම ඇතුළු විවිධ පැති පිළිබඳ පුළුල් ඇගයීමක් සපයයි. වැදගත් කරුණක් නම්, ඒවා OBQA හි කෙටි ආදාන සන්දර්භවල සිට BoolQ හි දිගු පෙළ දක්වා විවිධ කාර්යයන් සහ පෙළ සංකීර්ණතා හරහා අපගේ ආකෘතියේ ක්‍රියාකාරීත්වය පිළිබඳ ගැඹුරු තක්සේරුවක් සඳහා පහසුකම් සලසමින් විවිධ දිග පාඨ ආවරණය කරයි. අපගේ මාදිලිවල නිරවද්‍යතාවය සහ කාර්යක්ෂමතාව මැනීම සඳහා, අපි ශුන්‍ය-වෙඩි සහ පස්-වෙඩි සැකසීම් යන දෙකටම එකිනෙකට වෙනස් ප්‍රමිතික තුනක් භාවිතා කරමින් ත්‍රිමාණ හරහා ඒවා ඇගයීමට ලක් කරමු. AnLLMAC සඳහා පස්-වෙඩි සැකසීමේදී, අපි එක් එක් නිරූපණය අවසානයේ නැංගුරම් ටෝකනය ඇතුළත් කරමු.

• නිරවද්යතාව (Acc). මෙම සාම්ප්‍රදායික මෙට්‍රික් මාදිලිවල පුරෝකථන නිරවද්‍යතාවය මැන බැලීමට භාවිතා කරයි. පෙර අධ්‍යයනයන්ට අනුකූලව (Gao et al., 2023), අපි අනාවැකි ලෙස ඉහළම සම්භාවිතාවන් සහිත විකල්ප තෝරාගෙන රන් සම්මත ලේබල භාවිතයෙන් නිරවද්‍යතාව ගණනය කරමු.

• යතුරු/අගය හැඹිලි අඩු කිරීම (C⇓). පස්-වෙඩි ඇගයීමේ සන්දර්භය තුළ, පසුව නැවත භාවිතා කිරීම සඳහා ආදර්ශන GPU මතකයේ හැඹිලිගත කළ හැක. කෙසේ වෙතත්, දිගු නිදර්ශන සඳහා මතක පරිභෝජනය වැඩි කිරීම අවශ්‍ය විය හැකිය. මෙම මෙට්රික් නිර්මාණය කර ඇත්තේ AnSAN තාක්ෂණයේ මතක කාර්යක්ෂමතාව තක්සේරු කිරීම සඳහා ය.

• අනුමාන ත්වරණය අනුපාතය (T⇑). Wang et al හා සමානයි. (2023), හැඹිලි යතුරු/අගය මත ප්‍රාග්ධනය කරමින්, අපි AnSAN තාක්‍ෂණයේ අනුමාන කාර්යක්ෂමතාවයේ දර්ශකයක් ලෙස ක්‍රියා කරන අනුමාන ත්වරණ අනුපාතය ඉදිරිපත් කරමු.

අපි මුලින්ම සියලුම මාදිලි සඳහා පූර්ණ අවධානය අනුමාන ප්‍රතිඵල වාර්තා කරන බව සලකන්න, පසුව AnSAN ක්‍රමය (+AnSAN) යෙදූ ප්‍රතිඵල ඉදිරිපත් කරන්න, අනුක්‍රමික තොරතුරු නැංගුරම් ටෝකනවලට සම්පීඩනය කරන්න.

මෙම පත්‍රිකාව CC BY 4.0 DEED බලපත්‍රය යටතේ .