23 de setembro é o Dia Internacional das Línguas de Sinais , proclamado pelas Nações Unidas em 2017. Esta data é uma boa ocasião para sonhar (ou talvez estabelecer uma meta) que chegará o dia em que todos os produtos de mídia e tecnologia serão igualmente acessíveis por todas as pessoas, independentemente de suas deficiências. Sonho que um dia todos os surdos poderão assistir a transmissões esportivas ao vivo. Traduzir para línguas de sinais em tempo real é uma tarefa complicada, mesmo para intérpretes humanos. Mas como há poucos intérpretes qualificados e tantas línguas de sinais diferentes, as transmissões desportivas não podem tornar-se verdadeiramente universalmente acessíveis neste momento. Usar a Inteligência Artificial (IA) para resolver este problema é um desafio técnico muito interessante e definitivamente uma causa muito boa. Muito tem sido feito neste domínio nos últimos anos, mas os obstáculos ainda persistem. Neste artigo, estou oferecendo uma visão geral da tecnologia mais recente dedicada a esse objetivo e convido você a discutir essas descobertas e contribuir para desvendar esse enigma.
O esporte não é para todos?
O esporte é rei, ponto final. Desde as primeiras Olimpíadas antigas (e provavelmente mesmo antes disso), ajudou a transformar a parte competitiva da natureza humana em formas não violentas. Tem unido milhões de pessoas em todo o mundo e acima das fronteiras políticas. É também o governante do moderno universo digital e midiático. De acordo com o mercado esportivo global cresceu de US$ 486,61 bilhões em 2022 para US$ 512,14 bilhões em 2023, a uma taxa composta de crescimento anual (CAGR) de 5,2%. Espera-se que o mercado esportivo cresça ainda mais para US$ 623,63 bilhões em 2027, com um CAGR de 5,0%. Isso é muito mais rápido do que o crescimento da economia mundial, que deverá cair de cerca de 3,5% em 2022 para 3,0% em 2023 e 2024, de acordo com o . Somente o mercado global de streaming de esportes de vídeo ao vivo online foi avaliado em US$ 18,11 bilhões em 2020 e atingir US$ 87,33 bilhões em 2028. Ilustrando ainda mais a popularidade dos esportes, um relatório de 2022 revelou que 31% das receitas publicitárias de TV linear dos EUA dependem de programação esportiva ao vivo, apesar dos esportes representarem apenas 2,7% do conteúdo de programas transmitidos disponíveis.
No entanto, esta enorme indústria perde (parcial ou totalmente) uma parte significativa da população mundial. os dados sugerem que existem 70 milhões de pessoas surdas no mundo, o que representa um pouco menos de 10% da população mundial de 8,05 mil milhões. O problema progride: a Organização Mundial de Saúde espera que, até 2050, 2,5 mil milhões de pessoas (ou cerca de um quarto de todos os seres humanos) sofram de algum grau de perda auditiva. Claro, muitas das transmissões esportivas têm legendas. Mas o problema é que muitas pessoas surdas têm dificuldade em aprender a ler e escrever. Na maioria dos países, a taxa de analfabetismo entre os surdos , uma taxa verdadeiramente surpreendente. Muitas transmissões, especialmente na TV, contam com intérpretes de linguagem de sinais ao vivo. Mas, novamente, há um problema. Pessoas surdas em todo o mundo usam mais de 300 línguas de sinais diferentes e a maioria delas são mutuamente ininteligíveis. É obviamente impossível contratar 300 intérpretes para tornar uma transmissão globalmente acessível. Mas e se contratarmos uma IA?
Sinal (linguagem) de vida
Para compreender completamente a dificuldade desta tarefa, vamos mergulhar brevemente no que realmente são as línguas de sinais. Historicamente, eram frequentemente usados como língua franca por pessoas abençoadas com audição normal, mas que falavam línguas diferentes. O exemplo mais conhecido é a linguagem de sinais do na América do Norte do século XIX. As línguas das diferentes tribos eram diferentes, mas o seu modo de vida e ambiente eram bastante semelhantes, o que os ajudou a encontrar símbolos comuns. Por exemplo, um círculo desenhado contra o céu significava a lua, ou algo tão pálido quanto a lua. Formas semelhantes de comunicação foram usadas por tribos na África e na Austrália.
No entanto, este não é o caso das línguas de sinais utilizadas pelos surdos. Eles vêm se desenvolvendo de forma independente em cada região, país e às vezes até diferem de cidade para cidade. Por exemplo, a linguagem de sinais americana (ASL), amplamente utilizada nos EUA, é totalmente diferente da linguagem de sinais britânica, embora ambos os países falem inglês. Ironicamente, ASL é (LSF) porque um surdo francês, Laurent Clerc, foi um dos primeiros professores para surdos nos EUA no século XIX. Ao contrário da crença popular, não existe uma verdadeira linguagem de sinais internacional. Uma tentativa de criar um foi , concebido pela Federação Internacional de Surdos em 1951. No entanto, assim como seu análogo para ouvintes, o Esperanto, não é tão popular para se tornar uma verdadeira solução.
Outra coisa importante a ter em mente ao discutir traduções para línguas de sinais é que elas são línguas independentes, completamente diferentes das línguas que podemos ouvir. Um equívoco muito comum é que as línguas de sinais imitam aquelas faladas pelo ouvinte. Pelo contrário, possuem estrutura linguística, gramática e sintaxe totalmente diferentes. Por exemplo, ASL tem uma sintaxe tópico-comentário, enquanto o inglês usa construções sujeito-objeto-verbo. Então, em termos de sintaxe, ASL na verdade do que acontece com o inglês. Existem alfabetos de sinais (veja mais sobre eles ), mas são usados para soletrar nomes próprios de lugares e pessoas, não para compor palavras.
Quebrando as barreiras
Houve inúmeras tentativas de conectar línguas faladas e de sinais para reconhecimento de gestos. Alguns deles datam da década de 1980. Com o tempo, foram adicionados dispositivos mais sofisticados, como acelerômetros e todos os tipos de sensores. Contudo, o sucesso destas tentativas . E, de qualquer forma, a maioria deles se concentrou na tradução de línguas de sinais para línguas faladas, e não o contrário. Desenvolvimentos recentes em visão computacional, reconhecimento de fala, redes neurais, aprendizado de máquina e IA dão esperança de que a tradução direta de línguas faladas para línguas de sinais também seja possível.
O caminho mais comum é usar avatares 3D para exibir gestos e emoções em linguagem de sinais, usando fala e outros dados como entrada. Uma característica notável A empresa de transmissão no Japão permite traduzir dados esportivos, como nomes de jogadores, pontuações, etc., em linguagem de sinais exibida por um avatar animado semelhante a um desenho animado. Os dados recebidos dos organizadores do evento ou de outras entidades são interpretados e colocados em templates e posteriormente expressos pelo avatar. No entanto, apenas tipos limitados de dados podem ser traduzidos desta forma. A NHK afirma que continua a desenvolver a tecnologia para que os avatares possam expressar emoções de uma forma mais humana.
Lenovo e um Hub Brasileiro de Inovação CESAR eles estavam criando um tradutor de linguagem de sinais para ouvir pessoas que empregavam IA. Da mesma forma, SLAIT (que significa Sign Language AI Translator) uma ferramenta educacional que ajuda a aprender ASL de forma interativa. Embora essas tarefas sejam diferentes do nosso escopo, as técnicas de visão computacional e os modelos de treinamento em IA desenvolvidos por esses projetos podem ser muito úteis para fornecer a tradução da fala para a linguagem de sinais no futuro.
Outras startups estão se aproximando do nosso tema de discussão. Por exemplo, Signapse com uma solução que pode traduzir texto em linguagem de sinais exibido como um movimento de avatar animado fotorrealista. A empresa usa Redes Adversariais Generativas e técnicas de aprendizagem profunda, bem como um banco de dados de vídeos em constante desenvolvimento (mais sobre isso em seu artigo revisado por pares ). No entanto, esta plataforma destina-se maioritariamente à tradução de anúncios públicos e textos de websites. Em outras palavras, parece ainda longe da tradução ao vivo em tempo real.
A startup CODA, com sede em Israel, deu mais um passo em direção ao nosso objetivo. Ele desenvolveu uma ferramenta de tradução de áudio para sinal com tecnologia de IA e afirma que funciona . Atualmente oferece seus serviços em cinco idiomas de origem: inglês, hebraico, francês, espanhol e italiano. Em seguida, o CODA pretende adicionar múltiplas línguas de sinais diferentes de países com alta população, como Índia e China.
Provavelmente a correspondência mais próxima do nosso sonho foi apresentada pelo Baidu AI Cloud em sua plataforma de avatar digital Xiling. A plataforma para fornecer ao público com deficiência auditiva transmissões dos Jogos Paraolímpicos de Inverno de Pequim 2022. A mídia local disse que era capaz de gerar avatares digitais para tradução em linguagem de sinais e interpretação ao vivo “em minutos”.
Conclusão
O próximo passo no desenvolvimento da tradução de fala para sinais seria expandir a produção para o maior número possível de línguas de sinais e reduzir o intervalo de tempo necessário para a tradução de minutos para segundos. Ambas as tarefas representam grandes desafios. Adicionar mais línguas de sinais ao feed de saída significa criar e desenvolver permanentemente extensos bancos de dados de gestos manuais e corporais, bem como de expressões faciais. Reduzir o intervalo de tempo é ainda mais importante, pois o esporte é uma questão de momentos. Mesmo um intervalo de um minuto significa que a transmissão deve ser atrasada, caso contrário o público perderá a própria essência do jogo. O tempo necessário para a tradução pode ser reduzido através da construção de uma infraestrutura de hardware mais extensa, desenvolvendo bancos de dados dos modelos de fala mais típicos que podem ser reconhecidos antes mesmo de a frase ser concluída. Tudo isso pode parecer um empreendimento caro. Mas, por um lado, melhorar a qualidade de vida de milhões de pessoas não tem preço. Por outro lado, não falamos apenas de caridade. Pense na audiência adicional que as transmissões receberiam e no dinheiro do patrocinador que está em jogo. Em suma, pode ser um jogo em que todos ganham.
Parece que as grandes empresas de tecnologia também estão entrando na corrida. Zippia, um portal de carreiras, indicou recentemente que o Google intérpretes de língua de sinais com mais do que o dobro do salário que normalmente esperariam nos Estados Unidos (US$ 110.734 contra a média de US$ 43.655). Nesse ritmo, um intérprete de idiomas receberia cerca de 10% a mais do que um engenheiro de software médio nos EUA ( ). Isso pode muito bem ser um indício de que esperamos um grande avanço em breve…
Fique à vontade para comentar e vamos unir forças para encontrar a solução!