«Яндекс» представил 30 октября на ежегодной конференции для разработчиков технологию по распознаванию и синтезу речи. Она уже была доступна сторонним разработчикам: теперь ей могут пользоваться в мобильном приложении «Яндекс.Диктовка» обычные пользователи.
Синтез речи, по мнению Филиппова, может найти массу применений, например в озвучивании новостей в мобильных приложениях, в аудиокнигах и проч.
Кроме того, технология умеет выделять смысловые объекты, то есть выделить в распознанном тексте стандартные понятия, например, дату, время, фамилию или адрес. Это используется, чтобы управлять устройствами простыми фразами, которые не нужно заучивать. Например, для сервиса автоматизированного заказа такси: пользователь голосом заказывает такси, технология переводит речь в текст и выделяет такие объекты, как адрес и время подачи, дальше идет оформление заказа.
Пока система распознает русский и турецкий языки, в планах – английский. Она встроена в мобильное приложение «Яндекс.Диктовка». Это только демо-версия: распознавать спонтанную речь оно не может, только тексты произвольной тематики от одного человека. Филиппов объясняет, что при расшифровке диалога система должна уметь переключаться на разную тематику, после этого – подключать языковую модель, что сделать оперативно пока сложно.
Руководитель отдела голосовых технологий и продуктов «Яндекса» уверяет, что Yandex SpeechKit, в отличие от зарубежных конкурентов, лучше распознает русский язык. Он добавил, что Google дает возможность сторонним разработчикам использовать технологию только в оперативной системе Android, а технологии «Яндекса» доступны на разных операционных системах и других объектах, например, их возможно встроить в автомобиль или кофеварку. Также у Google нет голосовой активации и выделения смысловых объектов, говорит Филиппов.
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев