Kürzlich erfolgte die KI-Synchronisation des argentinischen Präsidenten vom Video-Startup Heygen ging in den sozialen Medien viral.
Die Software übersetzte nicht nur seine spanischen Wörter präzise ins Englische, sondern erledigte auch nahtlos die Lippensynchronisation, eine Aufgabe, die in der Videobranche traditionell nur menschlichen Profis vorbehalten war.
Obwohl einige Beobachter dass Heygens Version von Milei ein bisschen wie ein „Bangladescher nach einem Jahrzehnt in Swansea“ klingt, würde ich diese Gerüchte zurückweisen. Was schwer zu ignorieren ist, sind die mechanische Stimme und der Tonfall des KI-gesteuerten argentinischen Präsidenten.
Ehrlich gesagt klingt der echte Milei besser und emotionaler ausdrucksvoller. Bis vor kurzem waren Emotionen und Intonation die größten Herausforderungen für KI-Startups, die die Medienbranche revolutionieren wollten. Menschen sind immer noch besser darin, Leidenschaft, Trauer oder Wut durch ihre Stimme auszudrücken. Aber es sieht so aus, als würden sich die Dinge bald ändern.
Ein anderer Das blieb weitgehend unbemerkt und kam von einem Amsterdamer KI-Synchronisations-Startup namens Dubformer. Das Unternehmen gibt an, eine Technologie zur Übersetzung von Emotionen und Intonationen in Liedern entwickelt zu haben.
Sie können selbst beurteilen: Das Startup lokalisierte die berühmteste Version von „House of the Rising Sun“, die 1964 von der britischen Rockband The Animals aufgenommen wurde. Es sieht so aus, als hätte dieses Schaufenster eine menschenähnliche Qualität, wenn es darum geht, die Essenz und emotionale Tiefe des musikalischen Ausdrucks einzufangen.
Laut Anton Dvorkovich, CEO von Dubformer, verlässt sich das Unternehmen auf seine firmeneigene Technologie, darunter automatische Spracherkennung (ASR), Text-to-Speech (TTS) und Sprachbiometrie.
Micah Berkley, Spezialist für KI-Implementierung, Lösungsarchitekt und Pädagoge, sagte, dass die Technologie von Dubformer eine Zukunft präge, in der KI die globale Reichweite des künstlerischen Ausdrucks erweitert.
Persönlich kann ich mir einfach nicht vorstellen, dass KI-Stimmen oder -Übersetzungen jemals mit der emotionalen Ausdruckskraft und dem Engagement von Menschen mithalten könnten. Aber es scheint, als stünden wir direkt an der Front einer großen Transformation.