Компанія Google розробила більш ефективну технологію розпізнання мови –

Час читання: 2 хв.

Google опублікувала дані про створення інноваційного алгоритму діаризації – поділу вхідного аудіопотоку на однорідні сегменти відповідно до належності слів тій чи іншій людині. Компанія стверджує, що створена технологія більш ефективна, ніж відомі раніше.

Розробка базується на рекурентній нейронній мережі (RNN). Така архітектура дозволяє використовувати внутрішню пам’ять для обробки послідовностей довільної довжини і добре підходить для роботи з розбитих на сегменти аудіопотоку. У розробці Google для кожного мовця виділяється окремий екземпляр RNN, що виокремлює висловлювання.

Спеціалісти звертають увагу, що їх алгоритм є повністю прозорим і контрольованим, що дозволяє коригувати процес обробки аудіопотоку.

Розробники перевірили ефективність нового алгоритму діаризації за допомогою тесту NIST SRE 2000 CALLHOME. Похибка визначення склала 7,6 %. Використовувані раніше методи кластеризації і виділення за допомогою нейронної мережі показували похибку 8,8% і 9,9% відповідно. Крім меншої кількості помилок алгоритм володіє продуктивністю, достатньою для обробки потоку в реальному часі.

Визначення приналежності реплік — важливий компонент системи розпізнавання мови. Коректна диаризация дозволяє краще пристосуватися до особливостей вимови і акценту і якісно розділити висловлювання різних людей. Технологія знайде застосування, зокрема, у створенні субтитрів до відеозаписів. Правильно розпізнану мову легше перевести на інші мови, що, наприклад, буде корисно для онлайнових навчальних курсів. А можливість обробляти звук в реальному часі дозволить робити це навіть в прямому ефірі.

Для залучення в процес вдосконалення алгоритму діаризації якомога більшої кількості фахівців Google випустила продукт під відкритою ліцензією і розмістила його в репозиторії GitHub.

Google активно розвиває технології розпізнавання мови і привертає до цього процесу сторонніх розробників. У квітні 2017 року компанія відкрила доступ до Cloud Speech API — технології розпізнавання мови, що лежить в основі Google Асистента.

Компанія Google розробила більш ефективну технологію розпізнання мови

ЗАРАЗ ЧИТАЮТЬ

Apple анонсувала стильні чохли Beats для iPhone 16

Дизайн і ціна Galaxy S25 Ultra підтверджені надійним джерелом

OpenAI запустила новий AI-інструмент для створення відео

iPhone 17 Pro може отримати камеру у стилі Google Pixel

Зовнішній вигляд iPhone 17 зміниться: перші рендери розкривають новий дизайн

Представлено концепт смартфона Tesla з заокругленими краями

Найбільші технологічні досягнення 2024 року: 5 інновацій, які здивували світ

Apple Watch Ultra 3 будуть оснащені супутниковим зв’язком для екстрених ситуацій

Бюджетні моделі Redmi Note 14: розкрито вигляд і параметри

iPhone 18 Pro отримає передовий чип A20 Pro

Вас також можуть зацікавити новини:

Бюджетні моделі Redmi Note 14: розкрито вигляд і параметри

Google Pixel 10 отримає модем від MediaTek

Не пропустіть

Чат-бот Grok-2 від Ілона Маска став безкоштовним: як протестувати його функції

Nokia 105 і 110 отримали сучасний редизайн та порт USB Type-C

Біткойн встановив новий рекорд у $106,000 після заяви Трампа

Експерт назвав ключові критерії вибору бездротової зарядки для iPhone і Android

П’ять привабливих бюджетних смартфонів з відмінними IPS-екранами

Головні особливості нової версії Apple AirTag: що змінилося

СВІЖІ НОВИНИ

Чат-бот Grok-2 від Ілона Маска став безкоштовним: як протестувати його функції

Nokia 105 і 110 отримали сучасний редизайн та порт USB Type-C

Біткойн встановив новий рекорд у $106,000 після заяви Трампа

Експерт назвав ключові критерії вибору бездротової зарядки для iPhone і Android

П’ять привабливих бюджетних смартфонів з відмінними IPS-екранами

Головні особливості нової версії Apple AirTag: що змінилося

В мережу потрапили нові фото смартфонів iPhone 17

Названо найкращі недорогі смартфони на кінець 2024 року

iPhone зі складаним екраном: коли чекати конкурента Galaxy Z Flip

HDRezka випередив Netflix: Україна потрапила до топ-5 піратських країн