На прошедшей конференции Think 2021 представители IBM объявили о выпуске набора данных CodeNet. Он предназначен для обучения систем искусственного интеллекта переводу с одного языка программирования на другой.
«Это обширный набор данных, который состоит из около 14 миллионов фрагментов и 500 миллионов строк кода, разбросанных по более чем 55 устаревшим и активным языкам — от COBOL и FORTRAN до Java, C++ и Python», — объяснили в IBM.
Набор данных выложили на GitHub для свободного использования. Принцип работы CodeNet позволяет осуществлять двунаправленный перевод между различными парами языков программирования.
«Вы можете взять какой-то legacy-код COBOL, который по-прежнему составляет значительную часть банковской инфраструктуры и инфраструктуры федеральных учреждений, и перевести его на Java так же легко, как вы могли бы взять фрагмент Java и вернуть его обратно в COBOL», — говорит Ручир Пури, главный научный сотрудник IBM Research.
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев