Компания Meta* представила мультимодальную модель искусственного интеллекта, которая умеет распознавать речь и переводить ее почти на 100 языков. Кроме этого нейросеть SeamlessM4T умеет создавать из текста речь на 35 языках. А также распознавать, когда человек переходит с одного языка на другой или использует в речи сразу несколько. SeamlessM4T опирается на результаты большого количества языковых проектов, обеспечивая многоязычный и мультимодальный перевод на основе единой модели, построенной на широком спектре устных источников и показывает невероятные результаты. Нейросеть поддерживает: Распознавание речи почти на 100 языках; Преобразование речи в текст почти для 100 языков ввода и вывода; Преобразование речи в речь, поддержка почти 100 языков ввода и 36 (включая английский и русский) языков вывода; Текстовый перевод почти на 100 языков; Преобразование текста в речь, поддержка почти 100 языков ввода и 35 языков вывода. На данный момент момент SeamlessM4T доступна исследователям и разработчикам под соответствующей лицензией. Увидеть работу нейросети можно здесь. Также компания опубликовала метаданные SeamlessAlign, крупнейшего открытого набора данных для мультимодального перевода, включающего 270 000 часов согласования речи и текста. Подробнее – в блоге Meta AI. *Компания Meta признана экстремистской организацией и запрещена на территории РФ
Источник
#Интернетимедиа
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев