Categories: Технології

Компанія Google розробила більш ефективну технологію розпізнання мови

Share
Час читання: 2 хв.

Google опублікувала дані про створення інноваційного алгоритму діаризаціїподілу вхідного аудіопотоку на однорідні сегменти відповідно до належності слів тій чи іншій людині. Компанія стверджує, що створена технологія більш ефективна, ніж відомі раніше.


Розробка базується на рекурентній нейронній мережі (RNN). Така архітектура дозволяє використовувати внутрішню пам’ять для обробки послідовностей довільної довжини і добре підходить для роботи з розбитих на сегменти аудіопотоку. У розробці Google для кожного мовця виділяється окремий екземпляр RNN, що виокремлює висловлювання.

Спеціалісти звертають увагу, що їх алгоритм є повністю прозорим і контрольованим, що дозволяє коригувати процес обробки аудіопотоку.

Розробники перевірили ефективність нового алгоритму діаризації за допомогою тесту NIST SRE 2000 CALLHOME. Похибка визначення склала 7,6 %. Використовувані раніше методи кластеризації і виділення за допомогою нейронної мережі показували похибку 8,8% і 9,9% відповідно. Крім меншої кількості помилок алгоритм володіє продуктивністю, достатньою для обробки потоку в реальному часі.


Визначення приналежності реплік — важливий компонент системи розпізнавання мови. Коректна диаризация дозволяє краще пристосуватися до особливостей вимови і акценту і якісно розділити висловлювання різних людей. Технологія знайде застосування, зокрема, у створенні субтитрів до відеозаписів. Правильно розпізнану мову легше перевести на інші мови, що, наприклад, буде корисно для онлайнових навчальних курсів. А можливість обробляти звук в реальному часі дозволить робити це навіть в прямому ефірі.

Для залучення в процес вдосконалення алгоритму діаризації якомога більшої кількості фахівців Google випустила продукт під відкритою ліцензією і розмістила його в репозиторії GitHub.

Google активно розвиває технології розпізнавання мови і привертає до цього процесу сторонніх розробників. У квітні 2017 року компанія відкрила доступ до Cloud Speech API — технології розпізнавання мови, що лежить в основі Google Асистента.

Андрій Харитоненко

Опублікував
Андрій Харитоненко

Останні записи

Опубліковані перші рендери Samsung Galaxy Z Flip7 FE

У мережі з'явилися перші рендери Samsung Galaxy Z Flip7 FE. Зовнішні відмінності від торішнього Galaxy…

29.03.2025

У Китаї презентували найшвидші SSD у світі

Китайська компанія UNIS Flash Memory представила нові моделі SSD-накопичувачів - S5 і S5 Ultra, які…

29.03.2025

У мережі поширюється нова схема обману користувачів із відеокартами

Останнім часом на ринку з'явилася нова загроза для покупців найдорожчих відеокарт. Шахраї стали використовувати копії…

29.03.2025

Samsung має намір зробити прорив у виробництві чіпів

Samsung може випередити TSMC у гонці за першість у випуску 2-нм чіпів, але успіх цього…

29.03.2025

Білл Гейтс передбачає, що ШІ забере роботу у людей до 2035 року

Білл Гейтс, співзасновник Microsoft, прогнозує, що досягнення в галузі штучного інтелекту значно зменшать роль людей…

29.03.2025

MediaTek та Qualcomm змінять найменування своїх чіпів

MediaTek внесла зміни до назв своїх процесорів, слідуючи стратегії Qualcomm. Новий чіп, раніше відомий як…

29.03.2025