2 Архитектонски детали и 2.1 Ретка мешавина на експерти
3.1 Повеќејазични одредници, 3.2 Изведба на долг дострел и 3.3 Репери за пристрасност
6 Заклучок, признанија и референци
• Commonsense Reasoning (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]
• Светско знаење (5-снимки): NaturalQuestions [20], TriviaQA [19]
• Читање со разбирање (0-shot): BoolQ [7], QuAC [5]
• Математика: GSM8K [9] (8-shot) со maj@8 и MATH [17] (4-shot) со maj@4
• Код: Humaneval [4] (0-shot) и MBPP [1] (3-shot)
• Популарни збирни резултати: MMLU [16] (5-shot), BBH [29] (3-shot) и AGI Eval [34] (3-5-shot, само англиски прашања со повеќекратен избор)
Големина и ефикасност. Ги споредуваме нашите перформанси со семејството Llama 2, со цел да ја разбереме ефикасноста на моделите Mixtral во спектарот на трошоци и перформанси (види Слика 3). Како редок модел на Mixtureof-Experts, Mixtral користи само 13B активни параметри за секој токен. Со 5 пати помали активни параметри, Mixtral може да ги надмине Llama 2 70B во повеќето категории.
Разлики во евалуацијата. На некои одредници, има некои разлики помеѓу нашиот протокол за евалуација и оној што е наведен во трудот Llama 2: 1) на MBPP, го користиме рачно потврденото подмножество 2) на TriviaQA, не обезбедуваме контексти на Википедија.
Автори:
(1) Albert Q. Jiang; (2) Alexandre Sablayrolles; (3) Антоан Ру; (4) Артур Менш; (5) Бланш Савари; (6) Крис Бамфорд; (7) Девендра Синг Чаплот; (8) Диего де лас Касас; (9) Ема Бу Хана; (10) Флоријан Бресанд; (11) Џана Ленгјел; (12) Гијом Бур; (13) Гијом Лампле; (14) Лелио Ренар Лаво; (15) Лусил Саулние; (16) Мари-Ан Лашо; (17) Пјер Сток; (18) Сандип Субраманијан; (19) Софија Јанг; (20) Шимон Антониак; (21) Тевен Ле Скао; (22) Теофил Герве; (23) Тибо Лаврил; (24) Томас Ванг; (25) Тимоти Лакроа; (26) Вилијам Ел Сајед.