Компанія OpenAI офіційно представила нейромережну модель генерації голосів Voice Engine, розробка якої велася з кінця 2022 року. Їй достатньо лише 15-секундного зразка аудіозапису для створення синтетичного голосу. Після цього штучний інтелект здатний генерувати аудіозаписи за заданим текстом, у тому числі різними мовами.
Фактично технологія Voice Engine вже використовується в чат-боті ChatGPT для озвучування тексту, що генерується. Тільки там застосовуються попередньо встановлені голоси, тоді як нова технологія потенційно здатна імітувати будь-який голос. Тому OpenAI поки не готова до масштабного розгортання нейромережі, побоюючись можливості її використання в несумлінних цілях.
«Ми сподіваємося розпочати діалог про відповідальне використання синтетичних голосів та про те, як суспільство може адаптуватися до цих нових можливостей. На основі цих розмов та результатів невеликих випробувань ми ухвалимо більш виважене рішення про те, чи варто впроваджувати цю технологію в широких масштабах», – йдеться у блозі компанії .
На сайті OpenAI представлені приклади роботи Voice Engine та кілька потенційних прикладів використання технології:
-
Допомоги в читанні дітям і людям, які не вміють або не здатні читати, за допомогою природних, емоційних голосів, що представляють ширший діапазон дикторів, ніж це можливо при використанні попередньо встановлених голосів.
-
Переклад контенту, наприклад, відеороликів та подкастів, що дозволить авторам та компаніям донести інформацію до більшої кількості людей по всьому світу, використовуючи власні голоси.
-
Охоплення глобальних спільнот шляхом покращення надання основних послуг у віддалених районах.
-
Використання людьми із захворюваннями, що впливають на мовлення.
-
Допомога людям у відновленні голосу, які страждають від раптових чи дегенеративних захворювань мови.
Партнери OpenAI, які отримали доступ до Voice Engine, погодилися з політикою компанії, яка забороняє видавати себе за іншу фізичну особу чи організацію без згоди чи законного права.
«Ми вважаємо, що будь-яке широке впровадження технології синтетичного голосу має супроводжуватися голосовою автентифікацією, яка підтверджує, що оригінальний диктор свідомо додає свій голос у сервіс, та списком заборонених голосів, який виявляє та запобігає створенню голосів, надто схожих на відомих особистостей», — підкреслює компанія.