Nova historia

Mixtral: un modelo lingüístico multilingüe adestrado cun tamaño de contexto de 32k tokens

por Writings, Papers and Blogs on Text Models3m2024/10/18

FA-AF

Demasiado longo; Ler

Mixtral é unha mestura escasa de modelos de expertos (SMoE) con pesos abertos, licenciado baixo Apache 2.0. Mixtral supera a Llama 2 70B e GPT-3.5 na maioría dos benchmarks. É un modelo só de decodificador onde o bloque de avance elixe entre 8 grupos distintos de parámetros.

featured image - Mixtral: un modelo lingüístico multilingüe adestrado cun tamaño de contexto de 32k tokens

Autores:

(1) Albert Q. Jiang; (2) Alexandre Sablayrolles; (3) Antoine Roux; (4) Arthur Mensch; (5) Blanche Savary; (6) Chris Bamford; (7) Devendra Singh Chaplot; (8) Diego de las Casas; (9) Emma Bou Hanna; (10) Florian Bressand; (11) Gianna Lengyel; (12) Guillaume Bour; (13) Guillaume Lampe; (14) Lélio Renard Lavaud; (15) Lucile Saulnier; (16) Marie-Anne Lachaux; (17) Pierre Stock; (18) Sandeep Subramanian; (19) Sophia Yang; (20) Szymon Antoniak; (21) Teven Le Scao; (22) Théophile Gervet; (23) Thibaut Lavril; (24) Thomas Wang; (25) Timothée Lacroix; (26) William El Sayed.

Táboa de ligazóns

Resumo e 1. Introdución

2 Detalles arquitectónicos e 2.1 Escasa mestura de expertos

3 Resultados

3.1 Benchmarks multilingües, 3.2 Rendemento a longo alcance e 3.3 Bias Benchmarks

4 Instrucións Axuste fino

5 Análise de rutas

6 Conclusión, agradecementos e referencias

Resumo

Presentamos Mixtral 8x7B, un modelo de linguaxe de mestura escasa de expertos (SMoE). Mixtral ten a mesma arquitectura que Mistral 7B, coa diferenza de que cada capa está composta por 8 bloques de avance (é dicir, expertos). Para cada token, en cada capa, unha rede de enrutadores selecciona dous expertos para procesar o estado actual e combinar as súas saídas. Aínda que cada ficha só ve dous expertos, os expertos seleccionados poden ser diferentes en cada paso. Como resultado, cada token ten acceso a 47B parámetros, pero só usa 13B parámetros activos durante a inferencia. Mixtral adestrouse cun tamaño de contexto de 32k tokens e supera ou coincide con Llama 2 70B e GPT-3.5 en todos os puntos de referencia avaliados. En particular, Mixtral supera enormemente a Llama 2 70B en matemáticas, xeración de código e benchmarks multilingües. Tamén ofrecemos un modelo afinado para seguir as instrucións, Mixtral 8x7B - Instruct, que supera GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B - modelo de chat en referencias humanas. Tanto o modelo base como o modelo de instrución publícanse baixo a licenza Apache 2.0.

Código : //github.com/mistralai/mistral-src

Páxina web : //mistral.ai/news/mixtral-of-experts/

1 Introdución

Neste artigo, presentamos Mixtral 8x7B, un modelo de mestura escasa de expertos (SMoE) con pesos abertos, licenciado baixo Apache 2.0. Mixtral supera a Llama 2 70B e GPT-3.5 na maioría dos benchmarks. Como só usa un subconxunto dos seus parámetros para cada token, Mixtral permite unha velocidade de inferencia máis rápida en tamaños de lotes baixos e un maior rendemento en tamaños de lotes grandes.

Mixtral é unha rede de escasa mestura de expertos. É un modelo só de decodificador onde o bloque de avance elixe un conxunto de 8 grupos distintos de parámetros. En cada capa, para cada token, unha rede de enrutadores escolle dous destes grupos (os "expertos") para procesar o token e combinar a súa saída aditiva. Esta técnica aumenta o número de parámetros dun modelo ao tempo que controla o custo e a latencia, xa que o modelo só usa unha fracción do conxunto total de parámetros por token.

Mixtral está adestrado previamente con datos multilingües usando un tamaño de contexto de 32k tokens. Iguala ou supera o rendemento de Llama 2 70B e GPT-3.5, en varios puntos de referencia. En particular,

Mixtral demostra capacidades superiores en matemáticas, xeración de código e tarefas que requiren comprensión multilingüe, superando significativamente a Llama 2 70B nestes dominios. Os experimentos mostran que Mixtral é capaz de recuperar información con éxito da súa ventá de contexto de 32k tokens, independentemente da lonxitude da secuencia e da localización da información na secuencia.

Tamén presentamos Mixtral 8x7B - Instruct, un modelo de chat axustado para seguir instrucións mediante a optimización supervisada de preferencias e a optimización directa [25]. O seu rendemento supera notablemente o de GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B: modelo de chat sobre referencias de avaliación humana. Mixtral - Instruct tamén demostra prexuízos reducidos e un perfil de sentimento máis equilibrado en puntos de referencia como BBQ e BOLD.

Lanzamos Mixtral 8x7B e Mixtral 8x7B - Instruír baixo a licenza Apache 2.01 , gratuíto para uso académico e comercial, garantindo unha ampla accesibilidade e potencial para diversas aplicacións. Para que a comunidade poida executar Mixtral cunha pila totalmente de código aberto, enviamos cambios ao proxecto vLLM, que integra núcleos CUDA de Megablocks para unha inferencia eficiente. Skypilot tamén permite a implantación de puntos finais vLLM en calquera instancia da nube.

Este documento está baixo a licenza CC 4.0.