हाल ही में अर्जेंटीना के राष्ट्रपति की AI डबिंग हुई सोशल मीडिया पर वायरल हुआ वीडियो स्टार्टअप हेजेन का।
सॉफ़्टवेयर ने न केवल उनके स्पैनिश शब्दों का अंग्रेजी में सटीक अनुवाद किया, बल्कि लिप सिंक को भी सहजता से संभाला, जो पारंपरिक रूप से वीडियो उद्योग में मानव पेशेवरों के लिए विशेष कार्य है।
हालाँकि कुछ पर्यवेक्षक माइली का हेजेन का संस्करण कुछ हद तक 'स्वानसी में एक दशक के बाद बांग्लादेशी व्यक्ति' जैसा लगता है, मैं इन अफवाहों को खारिज कर दूंगा। एआई-संचालित अर्जेंटीना के राष्ट्रपति की यांत्रिक आवाज और स्वर को नजरअंदाज करना कठिन है।
सच कहूँ तो, असली माइली उससे बेहतर और भावनात्मक रूप से अधिक अभिव्यंजक लगती है। हाल तक, मीडिया उद्योग को बाधित करने का लक्ष्य रखने वाले एआई स्टार्टअप के लिए भावना और स्वर-शैली सबसे बड़ी चुनौतियां रही हैं। मनुष्य अपनी आवाज़ के माध्यम से जुनून, दुःख या क्रोध व्यक्त करने में अभी भी बेहतर हैं। लेकिन ऐसा लग रहा है कि चीजें बदलने वाली हैं.
एक और जिस पर काफी हद तक किसी का ध्यान नहीं गया, वह एम्स्टर्डम स्थित डबफॉर्मर नामक एआई डबिंग स्टार्टअप से आया है। कंपनी का दावा है कि उसने गानों में भावनाओं और स्वरों का अनुवाद करने की तकनीक विकसित की है।
आप स्वयं निर्णय कर सकते हैं: स्टार्टअप ने 1964 में ब्रिटिश रॉक बैंड द एनिमल्स द्वारा रिकॉर्ड किए गए "हाउस ऑफ़ द राइजिंग सन" के सबसे प्रसिद्ध संस्करण को स्थानीयकृत किया। ऐसा लगता है कि इस शोकेस में संगीत अभिव्यक्ति के सार और भावनात्मक गहराई को पकड़ने में मानव जैसी गुणवत्ता है।
डबफॉर्मर के सीईओ एंटोन ड्वोरकोविच के अनुसार, कंपनी अपनी इन-हाउस मालिकाना तकनीक पर निर्भर करती है, जिसमें ऑटोमैटिक स्पीच रिकग्निशन (एएसआर), टेक्स्ट-टू-स्पीच (टीटीएस), और वॉयस बायोमेट्रिक्स शामिल हैं।
एआई कार्यान्वयन विशेषज्ञ, समाधान वास्तुकार और शिक्षक मीका बर्कले ने कहा कि डबफॉर्मर की तकनीक एक ऐसे भविष्य को आकार दे रही है जहां एआई कलात्मक अभिव्यक्ति की वैश्विक पहुंच का विस्तार करती है।
व्यक्तिगत रूप से, मैं इस विचार पर अपना सिर नहीं झुका सकता कि एआई आवाज़ें या अनुवाद कभी भी मनुष्यों की भावनात्मक अभिव्यक्ति और जुड़ाव से मेल खा सकते हैं। लेकिन ऐसा लगता है जैसे हम एक बड़े परिवर्तन की अग्रिम पंक्ति में हैं।