OpenAI презентувала новітні інструменти для розпізнавання мови та синтезу голосу

Реклама

ЗАРАЗ ЧИТАЮТЬ

Час читання: < 1 хв.

OpenAI представила нові моделі штучного інтелекту для створення голосу та розпізнавання мови. Вони набагато кращі за попередні версії та є частиною планів компанії зі створення “агентів” — розумних систем, які можуть виконувати завдання замість користувача.

Глава відділу продуктів OpenAI Олів’є Годемон розповів, що такі системи незабаром з’являться у багатьох сферах, і компанія хоче допомогти розробникам створювати зручні та точні інструменти.

Реклама

Серед новинок — модель для генерації голосу gpt-4o-mini-tts, яка звучить більш природно. Розробники можуть задавати стиль голосу, наприклад, “говорити як божевільний вчений” або “спокійно, як учитель медитації”.

OpenAI TTS sample 1

Інший співробітник OpenAI, Джефф Харріс, пояснив, що розробники можуть керувати не тільки тим, що говорить модель, а й тоном і емоціями. Наприклад, у службі підтримки голос може звучати ввічливо та співчутливо.

Також OpenAI представила нові моделі для транскрипції — “gpt-4o-transcribe” та “gpt-4o-mini-transcribe”. Вони замінять стару систему Whisper та краще справляються з акцентами та шумом. Крім того, вони рідше вигадують слова.

OpenAI TTS sample 2

Реклама

Проте точність транскрипції залежить від мови. Наприклад, для мов тамільська, телугу, малаялам та каннада рівень помилок все ще досить високий — приблизно 30%.

На відміну від Whisper, нові моделі не будуть у відкритому доступі, оскільки потребують багато ресурсів і не підходять для роботи на звичайних пристроях.

Нові можливості вже доступні через OpenAI API.

Реклама

Вас також можуть зацікавити новини:

Не пропустіть

СВІЖІ НОВИНИ