Останнім часом нейромережеві інструменти для синтезу мови стають дедалі популярнішими. Однією з нових зірок на цьому полі є компанія ElevenLabs. Вони розробили інноваційний продукт, який дає змогу автоматично дублювати ролики різними мовами за допомогою нейронних мереж.
Один із ключових аспектів цього інструменту – його багатомовність. Він підтримує 29 мов, включно з такими широко використовуваними мовами, як російська, англійська та китайська. Це відкриває величезні можливості для створення багатомовного контенту і збільшення його охоплення аудиторією.
Інструмент схожий на продукт, який вже набрав віральну популярність – HeyGen. Однак новий інструмент від ElevenLabs також розпізнає і перекладає мову, зберігаючи оригінальний тон і вимову. Він навіть здатний розпізнавати кількох мовців, що робить його ще більш гнучким і зручним для використання.
Одна з великих переваг його полягає в здатності дублювати ролики з популярних платформ, таких як YouTube, TikTok, Vimeo і Twitter. Це означає, що користувачі можуть легко перекладати і дублювати свій відеоконтент різними мовами, розширюючи аудиторію і підвищуючи його доступність для людей з усього світу.
Однак, як і будь-який інший продукт, у цього інструменту є свої обмеження. Наприклад, творці встановили обмеження на довжину оброблюваних відео – не більше 5 хвилин. Також є обмеження на обсяг тексту – до 10 тисяч символів, що зазвичай вистачає на 5-6 хвилин промови. Це може бути недоліком для тих, хто хоче переозвучити довші відео, але загалом це обмеження дає змогу забезпечити якість і точність синтезованої мови.
Ще одним обмеженням є складність роботи з великою кількістю спікерів. Нейромережа може заплутатися в різних голосах і не завжди справляється з синхронізацією мови з рухами губ. Також музика та інші звукові ефекти можуть викликати артефакти і перепади гучності. Це може зробити інструмент не зовсім придатним для переозвучування трейлерів, де точність і якість звуку відіграють важливу роль. Однак, для створення смішних відео або перекладу контенту з соціальних мереж, цей інструмент чудово підходить.
Мережа вже знайшла застосування у сфері перекладу. Деякі користувачі використовують інструмент для перекладу відео-контенту. Наприклад, популярний ютубер Женя Мацкевич, відомий своїм каналом “Джиммі Нейрон” (звідки взяті приклади) використовував інструмент, щоб змусити Сергія Дружка вимовити мемну репліку англійською мовою. Результат був настільки реалістичним, що оригінал і підробка були практично не відрізняються.
Загалом, новий нейромережевий інструмент від ElevenLabs пропонує дивовижні можливості для автоматичного дубляжу роликів різними мовами. З його допомогою можна створювати багатомовний контент, розширювати аудиторію і робити відео доступнішими для людей з усього світу.
Однак, незважаючи на всі досягнення в цій галузі, їм все ще важко відтворювати і передавати емоційні нюанси, які так характерні для людського голосу.
Прикладом цього може слугувати знаменитий пробний ролик Семюеля Л. Джексона, де той вимовляє монолог із фільму “Зміїний політ” і скаржиться на “чортових змій на цьому чортовому літаку”. В оригіналі актор використовує сильне емоційне забарвлення, називаючи їх “motherfucking snakes”. Однак нейромережі поки що не можуть точно передати ці емоції, і в результаті виходить або занадто гучний і кричущий дубляж, або спокійний і нейтральний.
Проблема полягає в тому, що нейромережі поки що не можуть повністю зрозуміти і вловлювати контекст і нюанси, які людина легко сприймає. Наприклад, коли спікер змінює інтонацію у відео, нейромережа може пропустити цей зсув і продовжити говорити з однаковим тоном до кінця монологу. Це обмеження може бути перешкодою при створенні якісних дубляжів і синтезованих голосових повідомлень.
Іншим прикладом того, як складно для нейромереж передавати емоційну силу голосу, є легендарна промова “Just Do It” від Шайї ЛаБафа. У цій промові актор здебільшого кричить і вимовляє фрази російською мовою з невеликим акцентом. Нейромережі можуть відтворити ці слова, але їм важко передати ту саму енергію та пристрасть, яку ЛаБаф вкладає у свою промову.
Незважаючи на деякі обмеження, цей інструмент надає зручний та ефективний спосіб зробити відео більш інтернаціональними та привабливими для більшої аудиторії.