Новини України та Світу

Нова нейромережа для автоматичного дубляжу роликів зберігає оригінальний голос і перекладає мову 29 мовами

Share
Час читання: 3 хв.

Останнім часом нейромережеві інструменти для синтезу мови стають дедалі популярнішими. Однією з нових зірок на цьому полі є компанія ElevenLabs. Вони розробили інноваційний продукт, який дає змогу автоматично дублювати ролики різними мовами за допомогою нейронних мереж.

Один із ключових аспектів цього інструменту – його багатомовність. Він підтримує 29 мов, включно з такими широко використовуваними мовами, як російська, англійська та китайська. Це відкриває величезні можливості для створення багатомовного контенту і збільшення його охоплення аудиторією.

Інструмент схожий на продукт, який вже набрав віральну популярність – HeyGen. Однак новий інструмент від ElevenLabs також розпізнає і перекладає мову, зберігаючи оригінальний тон і вимову. Він навіть здатний розпізнавати кількох мовців, що робить його ще більш гнучким і зручним для використання.

Одна з великих переваг його полягає в здатності дублювати ролики з популярних платформ, таких як YouTube, TikTok, Vimeo і Twitter. Це означає, що користувачі можуть легко перекладати і дублювати свій відеоконтент різними мовами, розширюючи аудиторію і підвищуючи його доступність для людей з усього світу.

Однак, як і будь-який інший продукт, у цього інструменту є свої обмеження. Наприклад, творці встановили обмеження на довжину оброблюваних відео – не більше 5 хвилин. Також є обмеження на обсяг тексту – до 10 тисяч символів, що зазвичай вистачає на 5-6 хвилин промови. Це може бути недоліком для тих, хто хоче переозвучити довші відео, але загалом це обмеження дає змогу забезпечити якість і точність синтезованої мови.

Ще одним обмеженням є складність роботи з великою кількістю спікерів. Нейромережа може заплутатися в різних голосах і не завжди справляється з синхронізацією мови з рухами губ. Також музика та інші звукові ефекти можуть викликати артефакти і перепади гучності. Це може зробити інструмент не зовсім придатним для переозвучування трейлерів, де точність і якість звуку відіграють важливу роль. Однак, для створення смішних відео або перекладу контенту з соціальних мереж, цей інструмент чудово підходить.

Мережа вже знайшла застосування у сфері перекладу. Деякі користувачі використовують інструмент для перекладу відео-контенту. Наприклад, популярний ютубер Женя Мацкевич, відомий своїм каналом “Джиммі Нейрон” (звідки взяті приклади) використовував інструмент, щоб змусити Сергія Дружка вимовити мемну репліку англійською мовою. Результат був настільки реалістичним, що оригінал і підробка були практично не відрізняються.

Загалом, новий нейромережевий інструмент від ElevenLabs пропонує дивовижні можливості для автоматичного дубляжу роликів різними мовами. З його допомогою можна створювати багатомовний контент, розширювати аудиторію і робити відео доступнішими для людей з усього світу.

Однак, незважаючи на всі досягнення в цій галузі, їм все ще важко відтворювати і передавати емоційні нюанси, які так характерні для людського голосу.

Прикладом цього може слугувати знаменитий пробний ролик Семюеля Л. Джексона, де той вимовляє монолог із фільму “Зміїний політ” і скаржиться на “чортових змій на цьому чортовому літаку”. В оригіналі актор використовує сильне емоційне забарвлення, називаючи їх “motherfucking snakes”. Однак нейромережі поки що не можуть точно передати ці емоції, і в результаті виходить або занадто гучний і кричущий дубляж, або спокійний і нейтральний.

Проблема полягає в тому, що нейромережі поки що не можуть повністю зрозуміти і вловлювати контекст і нюанси, які людина легко сприймає. Наприклад, коли спікер змінює інтонацію у відео, нейромережа може пропустити цей зсув і продовжити говорити з однаковим тоном до кінця монологу. Це обмеження може бути перешкодою при створенні якісних дубляжів і синтезованих голосових повідомлень.

Іншим прикладом того, як складно для нейромереж передавати емоційну силу голосу, є легендарна промова “Just Do It” від Шайї ЛаБафа. У цій промові актор здебільшого кричить і вимовляє фрази російською мовою з невеликим акцентом. Нейромережі можуть відтворити ці слова, але їм важко передати ту саму енергію та пристрасть, яку ЛаБаф вкладає у свою промову.

Незважаючи на деякі обмеження, цей інструмент надає зручний та ефективний спосіб зробити відео більш інтернаціональними та привабливими для більшої аудиторії.

 

Митник Михайло

Більшу частину свого дитинства Михайло провів, бавлячись із гаджетами та намагаючись з'ясувати, як вони працюють. Його захоплення технологіями призвело до того, що іграшкові роботи, радіокеровані машинки та навіть ігрові приставки часто розбирали на частини, які не підлягали ремонту. Якщо ви поставите йому провокаційне запитання на кшталт "Android чи iPhone?", ви отримаєте ретельний аналіз всіх "за" і "проти", а також есе на тисячу слів про те, як технології впливають на людство.

Опублікував
Митник Михайло
  • Останні записи

    Дата релізу Samsung Galaxy S25: коли смартфон з’явиться у продажу

    Нещодавно ми дізналися, що Samsung планує провести масштабну презентацію серії Galaxy S25 вже 22 січня.…

    26.12.2024

    Що нового чекати від Apple AirPods у 2025 році

    Apple готує до випуску нове покоління AirPods Pro, яке, за чутками, побачить світ на початку…

    26.12.2024

    Чи варто купувати Galaxy S24 Ultra чи краще почекати на S25 Ultra

    Ось дивіться, коли Samsung запускає серію Galaxy S25 на початку 2025 року, вони, здається, кидають…

    26.12.2024

    OpenAI o3 вражає своїми здібностями до адаптації та міркування

    Нова модель OpenAI, o3, досягла безпрецедентних результатів, набравши 75,7% у складному тесті ARC-AGI за стандартних…

    26.12.2024

    5 найкращих компактних смартфонів для тих, хто цінує розмір і комфорт

    Не всі задоволені постійним збільшенням розмірів смартфонів, адже для деяких це створює незручності. Однак для…

    26.12.2024

    Що відбудеться в ігровій індустрії у 2025 році: ключові події року

    Аналітики GamesIndustry.biz поділилися своїми прогнозами на 2025 рік, і на цей рік очікується чимало великих…

    26.12.2024