Der 23. September ist der von den Vereinten Nationen im Jahr 2017 ausgerufene Internationale Tag der Gebärdensprachen . Dieses Datum ist ein guter Anlass, davon zu träumen (oder sich vielleicht ein Ziel zu setzen), dass eines Tages alle Medien- und Technologieprodukte gleichermaßen zugänglich sein werden alle Menschen, unabhängig von ihrer Behinderung. Ich träume davon, dass eines Tages alle gehörlosen Menschen Live-Sportübertragungen sehen können. Die Übersetzung in Gebärdensprachen in Echtzeit ist selbst für menschliche Dolmetscher eine knifflige Aufgabe. Da es jedoch zu wenige qualifizierte Dolmetscher und so viele verschiedene Gebärdensprachen gibt, können Sport-Streams derzeit nicht wirklich allgemein zugänglich werden. Der Einsatz künstlicher Intelligenz (KI) zur Lösung dieses Problems ist eine sehr interessante technische Herausforderung und definitiv ein sehr guter Zweck. In den letzten Jahren wurde in diesem Bereich viel getan, aber es bestehen immer noch Hindernisse. In diesem Artikel biete ich einen Überblick über die neueste Technologie, die diesem Ziel gewidmet ist, und lade Sie ein, diese Erkenntnisse zu diskutieren und dazu beizutragen, dieses Rätsel zu lösen.
Sport ist nicht jedermanns Sache?
Sport ist König, Punkt. Seit den ersten Olympischen Spielen der Antike (und wahrscheinlich sogar schon davor) hat es dazu beigetragen, den wettbewerbsorientierten Teil der menschlichen Natur in gewaltfreie Formen umzuwandeln. Es hat Millionen von Menschen auf der ganzen Welt und über politische Grenzen hinweg vereint. Es ist auch der Herrscher des modernen digitalen und medialen Universums. Entsprechend Der globale Sportmarkt wuchs von 486,61 Milliarden US-Dollar im Jahr 2022 auf 512,14 Milliarden US-Dollar im Jahr 2023 mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von 5,2 %. Es wird erwartet, dass der Sportmarkt im Jahr 2027 bei einer jährlichen Wachstumsrate von 5,0 % weiter auf 623,63 Milliarden US-Dollar wachsen wird. Das ist viel schneller als das Weltwirtschaftswachstum, das laut Prognosen von geschätzten 3,5 % im Jahr 2022 auf 3,0 % in den Jahren 2023 und 2024 sinken wird . Allein der globale Online-Live-Video-Sport-Streaming-Markt wurde im Jahr 2020 auf 18,11 Milliarden US-Dollar geschätzt im Jahr 2028 87,33 Milliarden US-Dollar erreichen. Ein weiterer Beleg für die Beliebtheit des Sports im Jahr 2022 ergab, dass 31 % der Einnahmen aus linearer TV-Werbung in den USA von Live-Sportprogrammen abhängen, obwohl Sport nur 2,7 % des verfügbaren Programminhalts ausmacht.
Dieser riesigen Industrie fehlt jedoch (teilweise oder vollständig) ein erheblicher Teil der Weltbevölkerung. Daten deuten darauf hin, dass es weltweit 70 Millionen gehörlose Menschen gibt, was etwas weniger als 10 % der 8,05 Milliarden Menschen auf der Erde ausmacht. Das Problem schreitet voran: Die Weltgesundheitsorganisation geht davon aus, dass bis 2050 2,5 Milliarden Menschen (oder etwa ein Viertel aller Menschen) einen gewissen Grad an Hörverlust erleiden werden. Selbstverständlich sind viele Sportübertragungen mit Untertiteln versehen. Das Problem ist jedoch, dass viele gehörlose Menschen Schwierigkeiten haben, Lesen und Schreiben zu lernen. In den meisten Ländern ist die Analphabetenrate unter Gehörlosen hoch , eine wirklich atemberaubende Rate. Viele Sendungen, insbesondere im Fernsehen, verfügen über Live-Gebärdensprachdolmetscher. Aber es gibt wieder ein Problem. Gehörlose Menschen auf der ganzen Welt verwenden mehr als 300 verschiedene Gebärdensprachen, von denen die meisten für beide Seiten unverständlich sind. Es ist offensichtlich unmöglich, 300 Dolmetscher zu engagieren, um eine Sendung weltweit zugänglich zu machen. Aber was wäre, wenn wir stattdessen eine KI einstellen würden?
Zeichen (Sprache) des Lebens
Um die Schwierigkeit dieser Aufgabe vollständig zu verstehen, werfen wir einen kurzen Blick darauf, was Gebärdensprachen eigentlich sind. Historisch gesehen wurden sie oft als Verkehrssprache von Menschen verwendet, die über ein normales Gehör verfügten, aber verschiedene Sprachen sprachen. Das bekannteste Beispiel ist die Gebärdensprache im Nordamerika des 19. Jahrhunderts. Die Sprachen der verschiedenen Stämme waren unterschiedlich, aber ihre Lebensweise und Umgebung waren sehr ähnlich, was ihnen dabei half, gemeinsame Symbole zu finden. Beispielsweise bedeutete ein vor dem Himmel gezeichneter Kreis den Mond oder etwas so Blasses wie der Mond. Ähnliche Kommunikationswege nutzten Stämme in Afrika und Australien.
Dies ist jedoch bei Gebärdensprachen, die von Gehörlosen verwendet werden, nicht der Fall. Sie haben sich in jeder Region und jedem Land unabhängig voneinander entwickelt und unterscheiden sich manchmal sogar von Stadt zu Stadt. Beispielsweise unterscheidet sich die in den USA weit verbreitete amerikanische Gebärdensprache (ASL) völlig von der britischen Gebärdensprache, obwohl in beiden Ländern Englisch gesprochen wird. Ironischerweise ist es ASL (LSF), weil ein französischer Gehörloser, Laurent Clerc, im 19. Jahrhundert einer der ersten Gehörlosenlehrer in den USA war. Entgegen der landläufigen Meinung gibt es keine echte internationale Gebärdensprache. Ein Versuch, einen zu erstellen, war , konzipiert von der International Federation of the Deaf im Jahr 1951. Allerdings erfreut es sich ebenso wie sein Analogon für hörende Menschen, Esperanto, bei weitem nicht so großer Beliebtheit, um eine echte Lösung zu werden.
Ein weiterer wichtiger Punkt, den man bei der Diskussion von Übersetzungen in Gebärdensprachen bedenken sollte, ist, dass es sich um eigenständige Sprachen handelt, die sich völlig von den Sprachen unterscheiden, die wir hören können. Ein weit verbreitetes Missverständnis besteht darin, dass Gebärdensprachen die Gebärdensprachen des Gehörs nachahmen. Im Gegenteil, sie haben eine völlig andere sprachliche Struktur, Grammatik und Syntax. Beispielsweise verfügt ASL über eine Themen-Kommentar-Syntax, während Englisch Subjekt-Objekt-Verb-Konstruktionen verwendet. Von der Syntax her also eigentlich ASL als es mit Englisch der Fall ist. Es gibt Zeichenalphabete (mehr dazu erfahren Sie hier). ), aber sie werden verwendet, um Eigennamen von Orten und Personen zu buchstabieren, nicht um Wörter zu bilden.
Die Barrieren durchbrechen
Es gab zahlreiche Versuche, Laut- und Gebärdensprache miteinander zu verbinden zur Gestenerkennung. Einige davon stammen aus den 1980er Jahren. Mit der Zeit kamen anspruchsvollere Geräte hinzu, wie Beschleunigungsmesser und alle Arten von Sensoren. Allerdings ist der Erfolg dieser Versuche . Und außerdem konzentrierten sich die meisten von ihnen auf die Übersetzung von Gebärdensprachen in gesprochene Sprachen und nicht umgekehrt. Jüngste Entwicklungen in den Bereichen Computer Vision, Spracherkennung, neuronale Netze, maschinelles Lernen und KI geben Anlass zur Hoffnung, dass auch eine direkte Übersetzung von gesprochenen Sprachen in Gebärdensprachen möglich ist.
Der gebräuchlichste Weg ist die Verwendung von 3D-Avataren zur Darstellung von Gesten und Emotionen in Gebärdensprache, wobei Sprache und andere Daten als Eingabe verwendet werden. Eine bemerkenswerte Funktion Eine Rundfunkgesellschaft in Japan ermöglicht die Übersetzung von Sportdaten wie Spielernamen, Spielständen usw. in Gebärdensprache, die von einem animierten Cartoon-ähnlichen Avatar angezeigt wird. Die von den Veranstaltern oder anderen Stellen erhaltenen Daten werden interpretiert, in Vorlagen eingefügt und dann vom Avatar ausgedrückt. Auf diese Weise können jedoch nur begrenzte Datentypen übersetzt werden. NHK gibt an, die Technologie weiterzuentwickeln, damit die Avatare Emotionen auf menschlichere Weise ausdrücken können.
Lenovo und ein brasilianischer Innovation Hub CESAR Sie entwickelten einen Gebärdensprachübersetzer für hörende Menschen, der KI einsetzte. Ebenso SLAIT (was für Sign Language AI Translator steht) ein Lehrmittel, das beim interaktiven Erlernen von ASL hilft. Obwohl sich diese Aufgaben von unserem Aufgabenbereich unterscheiden, können die von diesen Projekten entwickelten Computer-Vision-Techniken und KI-Trainingsmodelle bei der zukünftigen Übersetzung von Sprache in Gebärdensprache sehr nützlich sein.
Andere Startups rücken näher an unser Diskussionsthema heran. Zum Beispiel Signapse mit einer Lösung, die Text in Gebärdensprache übersetzen kann, der als fotorealistische animierte Avatar-Bewegung angezeigt wird. Das Unternehmen nutzt Generative Adversarial Networks und Deep-Learning-Techniken sowie eine sich ständig weiterentwickelnde Videodatenbank (mehr dazu in ihrem von Experten begutachteten Artikel). ). Diese Plattform ist jedoch hauptsächlich auf die Übersetzung öffentlicher Ankündigungen und Website-Texte ausgerichtet. Mit anderen Worten: Von einer Live-Übersetzung in Echtzeit scheint es noch weit entfernt zu sein.
Das in Israel ansässige Startup CODA ist unserem Ziel einen weiteren Schritt näher gekommen. Es hat ein KI-gestütztes Audio-zu-Sign-Übersetzungstool entwickelt und behauptet, es funktioniere . Derzeit bietet das Unternehmen seine Dienste in fünf Ausgangssprachen an: Englisch, Hebräisch, Französisch, Spanisch und Italienisch. Als nächstes zielt CODA darauf ab, mehrere verschiedene Gebärdensprachen aus Ländern mit hoher Bevölkerungszahl wie Indien und China hinzuzufügen.
Die wohl beste Übereinstimmung mit unserem Traum wurde von Baidu AI Cloud auf seiner digitalen Avatar-Plattform Xiling präsentiert. Die Platform Bereitstellung von Übertragungen der Paralympischen Winterspiele 2022 in Peking für hörgeschädigte Zuschauer. Lokale Medien sagten, es sei in der Lage, „innerhalb von Minuten“ digitale Avatare für Gebärdensprachübersetzungen und Live-Dolmetschen zu erstellen.
Abschluss
Der nächste Schritt bei der Entwicklung der Sprache-zu-Gebärden-Übersetzung wäre die Ausweitung der Ausgabe auf möglichst viele Gebärdensprachen und die Reduzierung der für die Übersetzung erforderlichen Zeitspanne von Minuten auf Sekunden. Beide Aufgaben stellen große Herausforderungen dar. Das Hinzufügen weiterer Gebärdensprachen zum Ausgabe-Feed erfordert die Erstellung und permanente Weiterentwicklung umfangreicher Datenbanken zu Hand- und Körpergesten sowie Gesichtsausdrücken. Die Reduzierung der Zeitlücke ist umso wichtiger, da es beim Sport vor allem um Momente geht. Selbst eine einminütige Pause bedeutet, dass der Stream verzögert werden sollte, sonst verpasst das Publikum das Wesentliche des Spiels. Die für die Übersetzung erforderliche Zeit kann durch den Aufbau einer umfangreicheren Hardware-Infrastruktur und die Entwicklung von Datenbanken mit den gängigsten Sprachvorlagen reduziert werden, die erkannt werden können, bevor die Phrase überhaupt fertig ist. All dies mag wie ein kostspieliges Unterfangen klingen. Doch einerseits ist die Verbesserung der Lebensqualität von Millionen Menschen unbezahlbar. Andererseits sprechen wir nicht nur von Nächstenliebe. Denken Sie an das zusätzliche Publikum, das die Sendungen erreichen würden, und an die Sponsorengelder, die im Spiel sind. Alles in allem könnte es durchaus ein Win-Win-Spiel sein.
Es scheint, als würden sich auch die Tech-Majors dem Rennen anschließen. Zippia, ein Karriereportal, hat kürzlich darauf hingewiesen, dass Google Gebärdensprachdolmetscher erhalten mehr als das Doppelte des Gehalts, das sie normalerweise in den Vereinigten Staaten erwarten würden (110.734 US-Dollar gegenüber durchschnittlich 43.655 US-Dollar). Bei diesem Satz würde ein Sprachdolmetscher etwa 10 % mehr verdienen als ein durchschnittlicher Softwareentwickler in den USA ( ). Dies könnte durchaus ein Hinweis darauf sein, dass wir bald einen großen Durchbruch erwarten …
Bitte zögern Sie nicht, einen Kommentar abzugeben und gemeinsam mit uns eine Lösung zu finden!