Autores:
(1) Qian Yang, Universidad de Zhejiang, contribución equivalente. Este trabajo se realizó durante la pasantía de Qian Yang en Alibaba Group; (2) Jin Xu, Alibaba Group, contribución igual; (3) Wenrui Liu, Universidad de Zhejiang; (4) Yunfei Chu, Grupo Alibaba; (5) Xiaohuan Zhou, Grupo Alibaba; (6) Yichong Leng, Grupo Alibaba; (7) Yuanjun Lv, Grupo Alibaba;
(8) Zhou Zhao, Alibaba Group y correspondiente a Zhou Zhao ([email protected]);
(9) Yichong Leng, Universidad de Zhejiang
(10) Chang Zhou, Alibaba Group y correspondiente a Chang Zhou ([email protected]);
(11) Jingren Zhou, Grupo Alibaba.
Tabla de enlaces
Resumen y 1. Introducción
2 Trabajos relacionados
3 AIR-Bench y descripción general de 3.1
3.2 Punto de referencia de la fundación
3.3 Punto de referencia de chat
3.4 Estrategia de evaluación
4 experimentos
4.1 Modelos
4.2 Resultados principales
4.3 Evaluación humana y 4.4 Estudio de ablación del sesgo posicional
5 Conclusión y referencias
Resultados detallados del estudio comparativo de la Fundación
Abstracto
Recientemente, los modelos de audio-lenguaje que siguen instrucciones han recibido una amplia atención para la interacción entre humanos y audio. Sin embargo, la ausencia de puntos de referencia capaces de evaluar las capacidades de interacción centradas en el audio ha impedido avances en este campo. Los modelos anteriores se centran principalmente en la evaluación de diferentes tareas fundamentales, como el reconocimiento automático del habla (ASR), y carecen de una evaluación de las capacidades generativas abiertas centradas en el audio. Por lo tanto, es un desafío realizar un seguimiento de la progresión en el dominio de los grandes modelos de audio-lenguaje (LALM) y proporcionar orientación para futuras mejoras. En este artículo, presentamos AIR-Bench (Audio InstRuction Benchmark), el primer punto de referencia diseñado para evaluar la capacidad de los LALM para comprender varios tipos de señales de audio (incluido el habla humana, los sonidos naturales y la música) y, además, para interactuar con humanos en formato textual. AIR-Bench abarca dos dimensiones: puntos de referencia básicos y de chat. El primero consta de 19 tareas con aproximadamente 19 000 preguntas de opción única, con el objetivo de inspeccionar la capacidad básica de una sola tarea de los LALM. El último contiene 2k instancias de datos de preguntas y respuestas abiertas, que evalúan directamente la comprensión del modelo en audio complejo y su capacidad para seguir instrucciones. Ambos puntos de referencia requieren que el modelo genere hipótesis directamente. Diseñamos un marco unificado que aprovecha modelos de lenguaje avanzados, como GPT-4, para evaluar las puntuaciones de las hipótesis generadas dada la metainformación del audio. Los resultados experimentales demuestran un alto nivel de consistencia entre la evaluación basada en GPT-4 y la evaluación humana. Al revelar las limitaciones de los LALM existentes a través de los resultados de la evaluación, AIR-Bench puede proporcionar información sobre la dirección de la investigación futura.
1 Introducción
Los recientes avances en inteligencia artificial general han sido impulsados significativamente por la aparición de grandes modelos de lenguaje (LLM) (Brown et al., 2020; OpenAI, 2022, 2023; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023a,b; Bai et al., 2023a). Estos modelos exhiben habilidades notables para retener conocimiento, participar en razonamientos intrincados y resolver problemas siguiendo las intenciones humanas. Motivado por el sorprendente progreso en los grandes modelos de lenguaje (LLM), el dominio de los grandes modelos de audio-lenguaje (LALM) ha experimentado una transformación revolucionaria. Para percibir y comprender señales de audio ricas y generar respuestas textuales siguiendo instrucciones humanas, se han propuesto muchos trabajos, como SALMONN (Tang et al., 2023a), BLSP (Wang et al., 2023a), Speech-LLaMA (Wu et al., 2023a) y Qwen-Audio (Chu et al., 2023), que muestran capacidades prometedoras para diálogos centrados en audio.
Sin embargo, los LALM anteriores (Tang et al., 2023a; Wang et al., 2023a; Wu et al., 2023a; Chu et al., 2023; Huang et al., 2023b; Shen et al., 2023; Gong et al., 2023; Wang et al., 2023b) se han concentrado predominantemente en la evaluación de tareas fundamentales específicas. La ausencia de un punto de referencia estandarizado para evaluar las capacidades generativas de seguimiento de instrucciones de estos modelos ha dado lugar a una dependencia de la exhibición de ejemplos o la liberación de los modelos de chat para la experimentación pública para demostrar sus habilidades conversacionales. Este enfoque plantea desafíos significativos para realizar comparaciones justas y objetivas entre diferentes esfuerzos de investigación. Además, tiende a oscurecer las limitaciones existentes de los modelos, lo que impide la capacidad de monitorear los avances dentro del dominio de los LALM.
Para la evaluación en dominios de audio, la mayoría de los esfuerzos de investigación se han concentrado en la creación de puntos de referencia adaptados a tareas individuales, como LibriSpeech (Panayotov et al., 2015) y Common Voice benchmark (Ardila et al., 2019) para ASR. Más allá de los específicos para cada tarea, se han diseñado puntos de referencia como SUPERB (Yang et al., 2021a) y HEAR (Turian et al., 2021) para probar la versatilidad de los modelos de aprendizaje autosupervisado en una amplia variedad de tareas. En cuanto a la evaluación de la capacidad de los LALM para seguir instrucciones, hasta donde sabemos, Dynamic-SUPERB (Huang et al., 2023a) es el único punto de referencia dedicado a este aspecto. Sin embargo, Dynamic-SUPERB solo se centra en el procesamiento del habla humana y no se extiende a la evaluación de las capacidades de los modelos para producir generaciones abiertas como los diálogos.
En este artículo, presentamos AIR-Bench (Audio InstRuction Benchmark), un nuevo punto de referencia diseñado para evaluar la capacidad de los LALM para comprender varias señales de audio e interactuar siguiendo instrucciones. AIR-Bench se caracteriza por tres características principales: 1) Cobertura integral de señales de audio. AIR-Bench ofrece una cobertura integral de señales de audio, incluido el habla humana, los sonidos naturales y la música, lo que garantiza una evaluación integral de las capacidades de los LALM. 2) Estructura jerárquica del punto de referencia. El punto de referencia consta de puntos de referencia básicos y de chat. El punto de referencia básico comprende 19 tareas de audio distintas con más de 19 000 preguntas de opción única, y cada pregunta se centra solo en una habilidad básica específica. GPT-4 (OpenAI, 2023) amplía las preguntas y las opciones de los candidatos mediante indicaciones diseñadas específicamente para ello. El componente de chat consta de más de 2000 preguntas abiertas con indicaciones de audio. Para mejorar la complejidad del audio y lograr una semejanza más cercana al intrincado audio que se encuentra en situaciones de la vida real, proponemos una nueva estrategia de mezcla de audio que incorpora control de sonoridad y dislocación temporal. Específicamente, ajustamos la sonoridad e introducimos diferentes desplazamientos temporales durante el proceso de mezcla de dos clips de audio. Las variaciones resultantes en la sonoridad relativa y la ubicación temporal se registran luego como metainformación adicional, lo que contribuye a una representación textual más completa del audio. La calidad de los datos se mantiene mediante el filtrado automático por GPT-4, seguido de una verificación manual. 3) Marco de evaluación unificado, objetivo y reproducible. Se requieren modelos para generar secuencias de hipótesis directamente en ambos puntos de referencia para alinearse con mayor precisión con los escenarios prácticos. Luego, empleamos GPT-4 para generar respuestas de referencia dada la metainformación a través de indicaciones cuidadosamente construidas. Dadas las referencias e hipótesis, siguiendo a Liu et al. (2023b), utilizamos GPT-4 (OpenAI, 2023) para juzgar si la elección es correcta para el punto de referencia básico o para las hipótesis de puntuación para el punto de referencia del chat. Además, realizamos una segunda puntuación intercambiando sus posiciones para eliminar el sesgo de posición. Con base en experimentos exhaustivos en 9 LALM, observamos que los LALM existentes tienen capacidades limitadas de comprensión de audio o de seguimiento de instrucciones, lo que deja un margen significativo para la mejora en este campo.
Nuestra contribución se resume a continuación:
• AIR-Bench es el primer punto de referencia de evaluación generativa para grandes modelos de audio y lenguaje, que abarca una amplia gama de audio, como el habla, los sonidos naturales y la música. AIR-Bench es un punto de referencia grande y jerárquico, que consta de un punto de referencia básico con 19 tareas de audio y más de 19 000 preguntas de opción única, junto con un punto de referencia de chat con más de 2000 preguntas de audio abiertas cuidadosamente seleccionadas para una evaluación integral.
• Proponemos una novedosa estrategia de mezcla de audio con control de sonoridad y dislocación temporal para mejorar la complejidad del audio.
• Se ha desarrollado un marco de evaluación unificado, objetivo y reproducible para evaluar la calidad de las hipótesis generativas.
• Realizamos una evaluación exhaustiva de 9 modelos con el fin de establecer un punto de referencia. El código de evaluación, los conjuntos de datos y una tabla de clasificación abierta se pondrán a disposición del público en breve.
Este artículo está bajo la licencia CC BY 4.0 DEED.