Google представила синтезатор речи Tacotron Второго поколения. Благодаря грамотному использованию ИИ инженерам компании удалось синтезировать человеческий голос, который непросто отличить от оригинала.
Что умеет Tacotron 2
Благодаря ИИ синтезатор речи научился говорить как живой человек, а не Далек из "Доктора Кто". То есть, он ставит паузы после запятых и точек, акцентирует внимание на начале предложение, соблюдает ударения и держит темп, как живой человек. По ссылке есть его сравнение с живым человеком. Попробуйте угадать не глядя. А вот необычные слова порой ставят его в тупик.
Как это работает
Google разбила процесс синтеза речи на 2 этапа и разделила их между двумя нейросетями. Первая нейросеть превращает текст в аудио спектрограмму — эдакий скриншот эквалайзера с четкой последовательностью звуковых частот. А вторая нейросеть WaveNet интерпретирует этот файл и превращает его в речь. Благодаря этому помощнику Google не нужно подключение к интернету, чтобы заговорить.
Что дальше
Google пока не раскрывает планов по реализации Tacotron 2. Однако не нужно быть гением, чтобы предположить, что раз все работает, то уже в ближайшее время появится в продуктах Google вроде голосового помощника, переводчика или Google карт.
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев