Categories: Технології

Компанія Google розробила більш ефективну технологію розпізнання мови

Share
Час читання: 2 хв.

Google опублікувала дані про створення інноваційного алгоритму діаризаціїподілу вхідного аудіопотоку на однорідні сегменти відповідно до належності слів тій чи іншій людині. Компанія стверджує, що створена технологія більш ефективна, ніж відомі раніше.


Розробка базується на рекурентній нейронній мережі (RNN). Така архітектура дозволяє використовувати внутрішню пам’ять для обробки послідовностей довільної довжини і добре підходить для роботи з розбитих на сегменти аудіопотоку. У розробці Google для кожного мовця виділяється окремий екземпляр RNN, що виокремлює висловлювання.

Спеціалісти звертають увагу, що їх алгоритм є повністю прозорим і контрольованим, що дозволяє коригувати процес обробки аудіопотоку.

Розробники перевірили ефективність нового алгоритму діаризації за допомогою тесту NIST SRE 2000 CALLHOME. Похибка визначення склала 7,6 %. Використовувані раніше методи кластеризації і виділення за допомогою нейронної мережі показували похибку 8,8% і 9,9% відповідно. Крім меншої кількості помилок алгоритм володіє продуктивністю, достатньою для обробки потоку в реальному часі.


Визначення приналежності реплік — важливий компонент системи розпізнавання мови. Коректна диаризация дозволяє краще пристосуватися до особливостей вимови і акценту і якісно розділити висловлювання різних людей. Технологія знайде застосування, зокрема, у створенні субтитрів до відеозаписів. Правильно розпізнану мову легше перевести на інші мови, що, наприклад, буде корисно для онлайнових навчальних курсів. А можливість обробляти звук в реальному часі дозволить робити це навіть в прямому ефірі.

Для залучення в процес вдосконалення алгоритму діаризації якомога більшої кількості фахівців Google випустила продукт під відкритою ліцензією і розмістила його в репозиторії GitHub.

Google активно розвиває технології розпізнавання мови і привертає до цього процесу сторонніх розробників. У квітні 2017 року компанія відкрила доступ до Cloud Speech API — технології розпізнавання мови, що лежить в основі Google Асистента.

Андрій Харитоненко

Опублікував
Андрій Харитоненко
  • Останні записи

    Samsung Galaxy S25 здивує новими можливостями ШІ

    Напередодні великої презентації, запланованої на 22 січня, в мережу потрапила інформація про нові функції Galaxy…

    16.01.2025

    Експерти назвали професії, які можуть зникнути через розвиток ШІ

    Штучний інтелект (ШІ) стрімко змінює ринок праці, і вже найближчим часом багато професій можуть зникнути.…

    16.01.2025

    Google розробляє ШІ, який у 500 разів перевершує ChatGPT

    Google презентувала нову архітектуру нейронних мереж під назвою Titans, яка, за словами її розробників, дозволяє…

    15.01.2025

    Топ недорогих смартфонів на початку 2025 року: найкращі варіанти для бюджету

    Смартфон Google Pixel 8a очолив рейтинг найкращих недорогих смартфонів на початок 2025 року за версією…

    15.01.2025

    Apple розробляє потужний чіп “Hidra” для наступного покоління Mac Pro

    Найближчими місяцями Apple планує запустити новий Mac Pro, який, як очікується, стане найпотужнішим пристроєм у…

    15.01.2025

    США посилюють контроль над світовим ринком ШІ-чипів

    США запроваджують жорсткіші обмеження на експорт чипів та технологій штучного інтелекту, прагнучи зберегти перевагу у…

    15.01.2025