Categories: Технології

Компанія Google розробила більш ефективну технологію розпізнання мови

Share
Час читання: 2 хв.

Google опублікувала дані про створення інноваційного алгоритму діаризаціїподілу вхідного аудіопотоку на однорідні сегменти відповідно до належності слів тій чи іншій людині. Компанія стверджує, що створена технологія більш ефективна, ніж відомі раніше.


Розробка базується на рекурентній нейронній мережі (RNN). Така архітектура дозволяє використовувати внутрішню пам’ять для обробки послідовностей довільної довжини і добре підходить для роботи з розбитих на сегменти аудіопотоку. У розробці Google для кожного мовця виділяється окремий екземпляр RNN, що виокремлює висловлювання.

Спеціалісти звертають увагу, що їх алгоритм є повністю прозорим і контрольованим, що дозволяє коригувати процес обробки аудіопотоку.

Розробники перевірили ефективність нового алгоритму діаризації за допомогою тесту NIST SRE 2000 CALLHOME. Похибка визначення склала 7,6 %. Використовувані раніше методи кластеризації і виділення за допомогою нейронної мережі показували похибку 8,8% і 9,9% відповідно. Крім меншої кількості помилок алгоритм володіє продуктивністю, достатньою для обробки потоку в реальному часі.


Визначення приналежності реплік — важливий компонент системи розпізнавання мови. Коректна диаризация дозволяє краще пристосуватися до особливостей вимови і акценту і якісно розділити висловлювання різних людей. Технологія знайде застосування, зокрема, у створенні субтитрів до відеозаписів. Правильно розпізнану мову легше перевести на інші мови, що, наприклад, буде корисно для онлайнових навчальних курсів. А можливість обробляти звук в реальному часі дозволить робити це навіть в прямому ефірі.

Для залучення в процес вдосконалення алгоритму діаризації якомога більшої кількості фахівців Google випустила продукт під відкритою ліцензією і розмістила його в репозиторії GitHub.

Google активно розвиває технології розпізнавання мови і привертає до цього процесу сторонніх розробників. У квітні 2017 року компанія відкрила доступ до Cloud Speech API — технології розпізнавання мови, що лежить в основі Google Асистента.

Андрій Харитоненко

Опублікував
Андрій Харитоненко
  • Останні записи

    Компанія 01.ai анонсувала інноваційну ШІ-модель Yi-Lightning

    Компанія 01.ai представила нову модель ШІ Yi-Lightning, схожу з GPT-4. Для навчання моделі використовувалося 2000…

    15.11.2024

    Вийшов безкоштовний ChatGPT для Windows

    Стартап OpenAI офіційно оголосив про вихід загальнодоступної версії застосунку ChatGPT для користувачів ПК під управлінням…

    15.11.2024

    Дизайн Samsung Galaxy A26 показали на якісних рендерах

    Надійний інсайдер під ніком OnLeaks опублікував серію деталізованих зображень ще не анонсованого смартфона. Крім того,…

    15.11.2024

    iOS 18.1 змушує iPhone перезавантажуватися після трьох днів бездіяльності

    Коли вийшла iOS 18, Apple додала дуже цікаву фішку. Тепер iPhone автоматично перезавантажується кожні три…

    15.11.2024

    Як зрозуміти, що додаток збирає ваші дані без дозволу

    Щороку ми завантажуємо мільярди додатків на смартфони — щоб швидко спілкуватися, займатися банкінгом, редагувати фото…

    14.11.2024

    Google робить свій смартфон потужнішим за допомогою Linux

    В Android 15 QPR2 Beta 1 Google представила нову функцію - Terminal, що дозволяє запускати…

    14.11.2024