Контролировать чистоту данных, на которых обучается ИИ, необходимо с привлечением человеческого потенциала через краудсорсинговые платформы. В России для этого есть свои масштабируемые решения. Качественные массивы данных нужны, в частности, чтобы обучать экспертные и рекомендательные системы на базе нейросетей – их применяют для поддержки принятия управленческих решений, развития умных городов, перехода к экономике данных.
Об этом Руслан Алигаджиев, генеральный директор ИТ-компании «Биорг», резидента фонда «Сколково», рассказал на Российско-Белорусской сессии «Совместные решения для промышленности в условиях импортозамещения» в рамках ЦИПР 2023.
По словам представителя «
Биорг», несмотря на значительный прогресс в сфере технологий распознавания, они всё ещё плохо справляются со сложными и слабоструктурированными данными. ИИ нужно непрерывно обучать, чтобы он различал, например, рукописный текст, чертежи и т.д.
Для быстрой и безопасной подготовки данных под различные задачи цифровой трансформации необходимы платформенные инструменты на базе нейросетей и краудсорсинга. В частности, с их помощью можно быстро решать задачи развития региональных витрин данных, создаваемых по стандартам НСУД — «Национальной системы управления данными». НСУД — ключевой элемент для создания экосистемы цифровых сервисов и госуправления в рамках нацпроекта «Цифровая экономика». Проект курирует вице-премьер Дмитрий Чернышенко.
"Разметка данных и обучение ИИ с участием людей — самые качественные. На западе для таких задач используют большие крауд-платформы – например, Amazon Mechanical Turk. В России тоже есть свои решения. Для общих задач есть Яндекс.Толока. Для специальных – например, наша платформа с собственным крауд-модулем, Beorg Smart Vision, которая настроена на обработку сложных, технических и персональных данных и внесена в реестр отечественного ПО", — отмечает Руслан Алигаджиев.
Недавно компания «Биорг» загрузила 7 терабайт оцифрованных технических документов в обновленную систему АСУТД Росэнергоатома. С 2018 по 2020 год перевела в электронный вид почти 50 млн актов гражданского состояния органов ЗАГС – на базе в том числе этой информации правительство развивает социальные сервисы.
В подобной работе реализована запатентованная компанией методика двухэтапного распознавания: на первом этапе документ обрабатывает нейросеть, а данные, распознанные с низким порогом уверенности, переходят на оператора, который верифицирует значения и одновременно дообучает систему. Защита данных на платформе обеспечена механизмом деперсонализации — нейросети разрезают документы на фрагменты. Информация передаётся по защищенному каналу.
«На уровне коммерческих компаний такой подход применим для высококачественной оцифровки данных — например для перевода в электронный вид любых бумажных документов. На уровне государственных задач методика актуальна для наполнения реестров ведомственных данных, где есть высокие требования к чистоте и непротиворечивости информации. На базе таких реестров ведомства будут обмениваться данными автоматически, а граждане смогут получать проактивные госуслуги. Например, родился ребенок – автоматически назначили пособия, выдали СНИЛС, поставили на очередь в детский сад; приобрел недвижимость – автоматически получил налоговый вычет», — комментирует применение технологии Руслан Алигаджиев.
Спрос на подобные гибридные системы подтвержден не только на уровне РФ. Интерес проявляют коллеги из дружественных стран, которые также планируют масштабные проекты по оцифровке данных. В этом смысле значительным подспорьем для отечественного технологического бизнеса стала служба Цифровых атташе, инициированная Минцифры и развиваемая Минпромторгом РФ.
Ранее на ЦИПР 2023 премьер-министр России Михаил Мишустин поставил задачу активнее экспортировать отечественные разработки.
Источник:
CDO2DAY
Нет комментариев