Краткий обзор Audiogram
Audiogram — это программный продукт для распознавания и синтеза речи, предоставляющий API и коннекторы для транскрибирования аудио и озвучивания текста разработчикам голосовых решени. Программный продукт Audiogram (рус. Аудиограм) от компании-разработчика МТС ИИ предназначен для создания и интеграции голосовых решений в корпоративные и коммерческие системы. Он предоставляет возможности потокового и файлового преобразования речи в текст, а также синтеза речи с использованием языка разметки SSML для управления интонацией и другими параметрами звучания, взаимодействуя с системами через API и набор коннекторов.
Система Audiogram ориентирована на разработчиков и интеграторов голосовых решений, специалистов по созданию чат-ботов, виртуальных ассистентов и интерактивных голосовых меню, а также на инженеров, работающих над системами автоматического распознавания и синтеза речи в корпоративных и коммерческих приложениях.
Система будет востребована компаниями, занимающимися разработкой телекоммуникационного ПО, сервисами клиентского обслуживания с использованием голосовых технологий, образовательными и медицинскими платформами, требующими обработки аудиоконтента, а также организациями, работающими с большими объёмами аудиоархивов и нуждающимися в их асинхронной транскрибации.
Функциональные возможности Audiogram:
-
Потоковое преобразование речи в текст (Online-ASR). Функция позволяет в реальном времени транскрибировать аудиопотоки, что актуально для приложений, требующих мгновенной обработки речевой информации, например, в системах контакт-центров или интерактивных голосовых сервисах.
-
Файловое преобразование речи в текст (Offline-ASR). Асинхронное транскрибирование больших объёмов аудиофайлов и аудиоархивов, что удобно для обработки накопленных записей, например, для анализа проведённых звонков или оцифровки аудиоматериалов.
-
Преобразование текста в речь (TTS). Функция озвучивания текста с использованием синтезированного голоса (мужского или женского), что применимо в системах, где требуется генерация голосовых сообщений, например, в сервисах уведомлений или интерактивных приложениях.
-
Поддержка языка разметки синтеза речи SSML. Возможность управления параметрами озвучивания (интонация, ударения и др.) для достижения более естественного звучания синтезированной речи, что важно для повышения качества пользовательского опыта.
-
Взаимодействие через API. Предоставление разработчикам интерфейса для прямого взаимодействия с платформой, что упрощает интеграцию функций распознавания и синтеза речи в существующие системы и приложения.
-
Использование коннекторов для преобразования протоколов. Наличие специальных модулей (например, SIP connector, UniMRCP connector, REST) для адаптации взаимодействия с различными системами и сервисами, что расширяет возможности применения платформы в разнородных ИТ-инфраструктурах.
-
Многообразие сценариев применения. Платформа подходит для разработки различных голосовых решений — от простых интерактивных сервисов до сложных систем автоматического распознавания и обработки речи в корпоративных и коммерческих приложениях.








