Дослідники з компанії Google в грудні опублікували дослідження, в якому вони представили систему мовленнєвого відтворення текстів Tacotron 2, яка може повністю повторити голос людини. Про дослідження повідомляє Quartz.
В основі технології лежать дві нейромережі глибокого навчання. Перша перетворює текст в спектрограмму (зображує аудіочастоти залежно від часу). Потім спектрограмму відправляють в нейромережу WaveNet, яка і створює необхідні звуки.
Система здатна обробляти складні слова й імена, а також змінювати інтонацію залежно від пунктуації. Google вбудувала аудіозаписи з голосом системи на своєму сайті. Система має і недоліки – поки вона натренована імітувати лише жіночий голос. Для того, щоб навчити її говорити чоловічим голосом, потрібно повторний цикл навчання.