3,916 lecturas

Por qué la integración de idiomas de bajos recursos en los LLM es esencial para una IA responsable

por Magdalena Konkiewicz5m2024/04/27

Demasiado Largo; Para Leer

El artículo explora los desafíos que enfrentan los idiomas de bajos recursos al acceder a modelos de lenguajes grandes (LLM) y presenta estrategias innovadoras, como la creación de conjuntos de datos de ajuste fino de alta calidad, para mejorar el rendimiento de los LLM, enfocándose particularmente en el suajili como caso de estudio. Estos avances contribuyen a un ecosistema de IA más inclusivo, apoyando la diversidad lingüística y la accesibilidad.

featured image - Por qué la integración de idiomas de bajos recursos en los LLM es esencial para una IA responsable

‘A robot learning in an african class room’ Image created by HackerNoon AI Image Generator

Lenguajes de bajos recursos (LRL) en modelos de lenguajes grandes (LLM)

En los últimos años, la aparición de los modelos de lenguaje grande (LLM) ha provocado cambios significativos en las rutinas diarias de los consumidores. Las personas ahora pueden realizar una amplia gama de tareas, como recuperar información, componer texto y perfeccionar documentos a través de estas potentes herramientas lingüísticas. Esta integración de los LLM en la vida diaria ha dado como resultado aumentos notables en la productividad, tanto en el trabajo como en los esfuerzos personales.

Sin embargo, es importante reconocer que no todos los consumidores han experimentado estos beneficios por igual. De hecho, un número considerable de personas en todo el mundo que hablan idiomas menos comunes no pueden interactuar con los LLM, principalmente debido a la insuficiencia de los modelos lingüísticos diseñados para estos idiomas específicos. Con 7.000 idiomas hablados actualmente en el mundo, los mayores LLM multilingües se han formado utilizando sólo menos de cien idiomas, dejando así muchos idiomas y personas completamente atrás.

Para admitir idiomas distintos del inglés se necesitan fuentes de datos abundantes y de alta calidad, que pueden ser difíciles de encontrar y acceder. Y no sólo esos modelos funcionan peor sino que también ha sido informado por que es más probable que den respuestas poco éticas, lo que los hace más vulnerables a ataques maliciosos.

¿Por qué tenemos idiomas subrepresentados en los LLM?

El desempeño de los LLM diseñados para lenguas de bajos recursos (LRL) se ve obstaculizado por varios desafíos clave.

En primer lugar, los modelos básicos de muchos LLM se basan en datos extraídos de Internet, que a menudo carecen de una cobertura completa de los LRL. El siguiente gráfico muestra una distribución de datos en Internet divididos en grupos de idiomas. Mientras que los idiomas más comunes tienen cientos de GB de datos potencialmente disponibles para modelos de entrenamiento, los idiomas al final del gráfico solo tienen datos disponibles en el rango de cientos de megabytes.

Esta limitación se ve agravada aún más por la ausencia de conjuntos de datos de instrucciones ajustados para muchos LRL. Un conjunto de datos de instrucción consta de un conjunto de preguntas combinadas con respuestas ideales y es una parte crucial de la formación de LLM, en este caso, en idiomas específicos. Así es como el modelo aprende a seguir instrucciones y, sin este activo, los modelos sólo son capaces de predecir la siguiente palabra de la secuencia en lugar de ayudar a los humanos con preguntas complejas y tareas de resolución de problemas.

Lo anterior se debe a que los LLM se capacitan en pasos secuenciales. El primer paso es aprender el idioma leyendo una gran cantidad de texto sin anotaciones, lo que le da al modelo la capacidad de predecir el siguiente mundo en la secuencia. El segundo paso es adaptar este comportamiento predictivo para seguir instrucciones específicas, como responder preguntas, escribir resúmenes o extraer datos. Es por eso que ajustar los conjuntos de datos es tan importante, ya que su calidad determinará aún más la capacidad de LLM para ayudar a los usuarios con las tareas requeridas.

En la siguiente sección, presentaremos un método para crear un conjunto de datos de alta calidad para suajili que se puede utilizar para ajustar el LLM para este idioma. El método se puede aplicar a cualquier idioma de bajos recursos.

Canal innovador para recopilar datos para LRL

El suajili es un idioma hablado por más de 200 millones de personas en 14 países africanos diferentes y es el idioma nacional oficial en Tanzania, Kenia, Uganda y la República Democrática del Congo. Pertenece al grupo de lenguajes de bajos recursos y es un ejemplo de un lenguaje que no tiene un conjunto de datos de instrucciones listo para usar para el ajuste fino de LLM.

En general, existen tres enfoques para crear un conjunto de datos de ajuste fino para un idioma. La primera es la generación directa de un conjunto de datos por parte de los evaluadores, en este caso expertos en idiomas, lo que requiere desarrollar tanto preguntas como respuestas ideales en el idioma deseado. Esto puede ser un desafío para el idioma swahili porque los evaluadores deben ser expertos de alto nivel y el proceso generalmente es costoso.

Otra posible solución es tomar un conjunto de datos de instrucciones existente en inglés y traducirlo al suajili. Esto lo podrían hacer traductores que hablen tanto suajili como inglés, pero también puede requerir mucho tiempo y recursos. Se podría utilizar un traductor automático; sin embargo, esto normalmente da como resultado resultados insuficientes o de mala calidad.

Otra solución combina la traducción automática con la validación humana, ofreciendo un enfoque rentable y escalable, lo cual es fundamental para garantizar que los modelos LRL sean precisos, reflejen las costumbres y normas locales y sean útiles para las comunidades que los utilizarán. Este método utiliza el mejor traductor automático disponible del suajili al inglés y luego pide a los hablantes nativos de suajili que filtren los ejemplos que no cumplen con los estándares de calidad.

recientemente emprendió un proyecto de desarrollo, donde crearon un conjunto de datos de 11.000 ajustes para swahili a partir de los 15.000 originales. . Cada punto de datos que consta de una indicación y una respuesta se tradujo del inglés al suajili mediante traducción automática, lo que dio como resultado inicialmente 15.000 pares de preguntas y respuestas en suajili. Este conjunto de datos se redujo aún más pidiendo a los hablantes nativos que eliminaran los pares de baja calidad, dejando así un conjunto de datos suajili ajustado con 11.000 instancias.

El conjunto de datos se utilizó luego para mejorar , uno de los modelos de lenguaje multilingüe de mayor rendimiento para suajili, que demostró mejoras significativas en el rendimiento de este idioma. El conjunto de datos ajustado mejoró la precisión y la puntuación f (una medida del rendimiento predictivo) para las tareas de clasificación, pero lo más importante es que aumentó significativamente suplente orientado a la recuperación para la evaluación de Gisting, que es un conjunto de métricas utilizadas para evaluar el software de resumen automático y traducción automática en PNL, y en tareas generativas donde el modelo debe responder a preguntas abiertas. Este experimento muestra el potencial para mejorar el rendimiento de LLM en LRL y, por lo tanto, abre un camino para construir modelos verdaderamente multilingües.

Creando un ecosistema de IA más inclusivo

A medida que los desarrolladores y las organizaciones se esfuerzan por crear un ecosistema de IA más inclusivo, la evaluación se vuelve aún más crítica, al igual que la participación humana en la formación de los LLM. El reciente lanzamiento de Cohere de , un modelo de idioma que admite más de cien idiomas, incluido el suajili y otros LRL, ejemplifica este compromiso. Abordar la escasez de datos y mejorar el rendimiento del modelo para los LRL es un paso importante para construir sistemas de IA más inclusivos y responsables que sirvan a diversas comunidades lingüísticas en todo el mundo.