El 23 de septiembre es el Día Internacional de las Lenguas de Signos , proclamado por las Naciones Unidas en 2017. Esta fecha es una buena ocasión para soñar (o tal vez fijarse una meta) que llegará el día en que todos los medios y productos tecnológicos serán igualmente accesibles por todas las personas independientemente de su discapacidad. Sueño que algún día todas las personas sordas puedan ver transmisiones deportivas en vivo. Traducir a lenguas de signos en tiempo real es una tarea complicada, incluso para los intérpretes humanos. Pero como hay muy pocos intérpretes cualificados y tantas lenguas de signos diferentes, las transmisiones deportivas no pueden llegar a ser realmente accesibles universalmente en este momento. Usar Inteligencia Artificial (IA) para resolver este problema es un desafío técnico muy interesante y definitivamente una muy buena causa. Se ha hecho mucho en este campo en los últimos años, pero aún persisten obstáculos. En este artículo, ofrezco una descripción general de la última tecnología dedicada a este objetivo y lo invito a discutir estos hallazgos y contribuir a resolver este enigma.
¿El deporte no es para todos?
El deporte es el rey, punto. Desde los primeros Juegos Olímpicos de la antigüedad (y probablemente incluso antes) ayudó a transformar la parte competitiva de la naturaleza humana en formas no violentas. Ha estado uniendo a millones de personas en todo el mundo y más allá de las fronteras políticas. También es el gobernante del universo digital y mediático moderno. De acuerdo a El mercado mundial de deportes creció de 486.61 mil millones de dólares en 2022 a 512.14 mil millones de dólares en 2023 a una tasa de crecimiento anual compuesta (CAGR) del 5,2%. Se espera que el mercado de los deportes siga creciendo hasta alcanzar los 623.630 millones de dólares en 2027 con una tasa compuesta anual del 5,0%. Esto es mucho más rápido que el crecimiento de la economía mundial, que se prevé que caiga de un 3,5% estimado en 2022 a un 3,0% tanto en 2023 como en 2024, según el . Solo el mercado mundial de transmisión de deportes de video en vivo en línea estuvo valorado en $ 18,11 mil millones en 2020 y alcanzar los 87,33 mil millones de dólares en 2028. Para ilustrar aún más la popularidad de los deportes, un 2022 reveló que el 31% de los ingresos publicitarios de televisión lineal de EE. UU. dependen de la programación deportiva en vivo, a pesar de que los deportes representan sólo el 2,7% del contenido de programas de transmisión disponible.
Sin embargo, esta enorme industria deja de lado (parcial o totalmente) a una parte importante de la población mundial. Los datos sugieren que hay 70 millones de personas sordas en el mundo, lo que representa un poco menos del 10% de los 8.050 millones de habitantes de la Tierra. El problema avanza: la Organización Mundial de la Salud espera que para 2050 2.500 millones de personas (o aproximadamente una cuarta parte de todos los seres humanos) experimentarán algún grado de pérdida auditiva. Por supuesto, muchas de las retransmisiones deportivas cuentan con subtítulos. Pero el problema es que muchas personas sordas tienen dificultades para aprender a leer y escribir. En la mayoría de los países, la tasa de analfabetismo entre las personas sordas , una tasa realmente asombrosa. Muchas transmisiones, especialmente en televisión, cuentan con intérpretes de lengua de signos en vivo. Pero, de nuevo, hay un problema. Las personas sordas en todo el mundo utilizan más de 300 lenguas de signos diferentes y la mayoría de ellas son mutuamente ininteligibles. Evidentemente es imposible contratar 300 intérpretes para que una emisión sea accesible a nivel mundial. ¿Pero qué pasa si en su lugar contratamos una IA?
Signo (lenguaje) de vida.
Para comprender completamente la dificultad de esta tarea, analicemos brevemente qué son realmente las lenguas de signos. Históricamente, las personas con audición normal, pero que hablaban diferentes idiomas, los utilizaban a menudo como lengua franca. El ejemplo más conocido es la lengua de signos de la en la América del Norte del siglo XIX. Los idiomas de las diferentes tribus eran diferentes, pero su forma de vida y su entorno eran bastante similares, lo que les ayudó a encontrar símbolos comunes. Por ejemplo, un círculo dibujado contra el cielo significaba la luna o algo tan pálido como la luna. Las tribus de África y Australia utilizaron formas similares de comunicarse.
Sin embargo, este no es el caso de las lenguas de signos utilizadas por personas sordas. Se han ido desarrollando de forma independiente en cada región, país y en ocasiones incluso difieren de una ciudad a otra. Por ejemplo, el lenguaje de señas americano (ASL), ampliamente utilizado en los EE. UU., es totalmente diferente del lenguaje de señas británico, aunque ambos países hablan inglés. Irónicamente, ASL es (LSF) porque un sordo francés, Laurent Clerc, fue uno de los primeros profesores para sordos en Estados Unidos en el siglo XIX. Contrariamente a la creencia popular, no existe una verdadera lengua de signos internacional. Un intento de crear uno fue , concebido por la Federación Internacional de Sordos en 1951. Sin embargo, al igual que su análogo para las personas oyentes, el esperanto, no es tan popular como para convertirse en una verdadera solución.
Otra cosa importante a tener en cuenta cuando se habla de traducciones a lenguas de signos, es que son lenguas independientes, completamente diferentes de las lenguas que podemos escuchar. Un error muy común es creer que las lenguas de señas imitan las habladas por personas oyentes. Al contrario, tienen una estructura lingüística, gramática y sintaxis totalmente diferente. Por ejemplo, ASL tiene una sintaxis de tema-comentario, mientras que el inglés usa construcciones sujeto-objeto-verbo. Entonces, en términos de sintaxis, ASL en realidad que con el inglés. Existen alfabetos de signos (ver más sobre ellos) ), pero se utilizan para deletrear nombres propios de lugares y personas, no para componer palabras.
Rompiendo las barreras
Hubo numerosos intentos de conectar las lenguas hablada y de signos. para el reconocimiento de gestos. Algunos de ellos datan de los años 80. Con el tiempo, se fueron añadiendo aparatos más sofisticados, como acelerómetros y todo tipo de sensores. Sin embargo, el éxito de estos intentos . Y de todos modos, la mayoría de ellos se centraron en traducir lenguas de signos a lenguas habladas, y no al revés. Los avances recientes en visión por computadora, reconocimiento de voz, redes neuronales, aprendizaje automático e inteligencia artificial dan esperanzas de que también sea posible la traducción directa del lenguaje hablado al lenguaje de señas.
El camino más común es utilizar avatares 3D para mostrar gestos y emociones en lenguaje de señas, utilizando el habla y otros datos como entrada. Una característica notable Una corporación de radiodifusión en Japón permite traducir datos deportivos, como nombres de jugadores, puntuaciones, etc., al lenguaje de señas mostrado por un avatar animado parecido a un dibujo animado. Los datos recibidos de los organizadores del evento u otras entidades se interpretan, se colocan en plantillas y luego el avatar los expresa. Sin embargo, de esta manera sólo se pueden traducir tipos limitados de datos. NHK dice que continúa desarrollando la tecnología para que los avatares puedan expresar emociones de una manera más humana.
Lenovo y un Hub de Innovación Brasileño CESAR estaban creando un traductor de lengua de signos para personas oyentes que empleaba IA. De manera similar, SLAIT (que significa Sign Language AI Translator) una herramienta educativa que ayuda a aprender ASL de forma interactiva. Aunque estas tareas son diferentes de nuestro alcance, las técnicas de visión por computadora y los modelos de entrenamiento de IA desarrollados por estos proyectos pueden ser muy útiles para proporcionar la traducción del habla al lenguaje de señas en el futuro.
Otras startups se están acercando a nuestro tema de discusión. Por ejemplo, Signapse con una solución que puede traducir texto a lenguaje de señas y mostrarlo como un movimiento de avatar animado fotorrealista. La empresa utiliza redes generativas adversarias y técnicas de aprendizaje profundo, así como una base de datos de vídeos en constante desarrollo (más sobre esto en su artículo revisado por pares). ). Sin embargo, esta plataforma está destinada principalmente a traducir anuncios públicos y textos de sitios web. En otras palabras, parece todavía estar lejos de la traducción en vivo en tiempo real.
La startup CODA, con sede en Israel, dio un paso más hacia nuestro objetivo. Desarrolló una herramienta de traducción de audio a signos basada en inteligencia artificial y afirma que funciona . Actualmente ofrece sus servicios en cinco idiomas de origen: inglés, hebreo, francés, español e italiano. A continuación, CODA tiene como objetivo agregar múltiples lenguajes de señas diferentes de países con alta población como India y China.
Podría decirse que la coincidencia más cercana a nuestro sueño fue presentada por Baidu AI Cloud en su plataforma de avatar digital Xiling. La plataforma Proporcionar a la audiencia con discapacidad auditiva retransmisiones de los Juegos Paralímpicos de Invierno de Beijing 2022. Los medios locales dijeron que era capaz de generar avatares digitales para la traducción del lenguaje de señas y la interpretación en vivo “en cuestión de minutos”.
Conclusión
El siguiente paso en el desarrollo de la traducción de voz a señas sería ampliar la producción a tantas lenguas de señas como sea posible y reducir el intervalo de tiempo necesario para la traducción de minutos a segundos. Ambas tareas representan grandes desafíos. Agregar más lenguajes de señas al feed de salida significa crear y desarrollar permanentemente extensas bases de datos de gestos manuales y corporales, así como de expresiones faciales. Reducir la diferencia de tiempo es aún más importante, ya que los deportes se tratan de momentos. Incluso un intervalo de un minuto significa que la transmisión debería retrasarse o, de lo contrario, la audiencia se perderá la esencia misma del juego. El tiempo necesario para traducir se puede reducir construyendo una infraestructura de hardware más extensa y desarrollando bases de datos de las plantillas de voz más típicas que puedan reconocerse incluso antes de que se termine la frase. Todo esto puede parecer una empresa costosa. Pero, por un lado, mejorar la calidad de vida de millones de personas no tiene precio. Por otra parte, no hablamos sólo de caridad. Piense en la audiencia adicional que recibirían las transmisiones y el dinero de los patrocinadores que está en juego. En definitiva, puede ser un juego en el que todos ganen.
Parece que las grandes tecnológicas también se están sumando a la carrera. Zippia, un portal de empleo, indicó recientemente que Google intérpretes de lenguaje de señas con más del doble del salario que normalmente esperarían en los Estados Unidos ($110,734 versus un promedio de $43,655). A este ritmo, un intérprete de idiomas ganaría aproximadamente un 10% más que un ingeniero de software promedio en los EE. UU. ( ). Esto bien puede ser un indicio de que estamos esperando un gran avance pronto...
¡No dude en comentar y permítanos unir fuerzas para encontrar la solución!