"ЗАВТРА". Артур, что же такое большие данные или Big Datа?
Артур ХАЧУЯН, программист, предприниматель, генеральный директор Tazeros Global Systems. Это набор алгоритмов и подходов к извлечению новых знаний из сверхбольших массивов данных. То есть это не какая-то определённая дисциплина, а столкновение множества разных исследовательских теорий.
"ЗАВТРА". Расскажите о масштабе компании в цифрах, например, какое количество информации вы в день обрабатываете из общего доступа?
Артур ХАЧУЯН. Сейчас суммарно с 10-го года мы обработали уже 9,7, почти 10 петабайт информации. Это соцсети, блоги, форумы, текстовый контент, фотографии, лица. В базу ежедневно попадает в районе 200-350 миллионов текстовых сообщений, определённых людей, именно отфильтрованных. Порядка 15-20 миллионов фотографий – это то, что мы оставляем, сохраняем, остальное мы просто индексируем, понимаем, что нам это не интересно.
"ЗАВТРА". Что происходит с данными после того, как вы их получаете? Опишите цепочку преобразования обезличенной информации в какое-то знание, которое уже можно впоследствии продать.
Артур ХАЧУЯН. Да, есть алгоритмы, которые путешествуют по интернету, собирают информацию в чистом виде. Это могут быть записи на форумах, публикации какие-то или ещё что-то. Они перекладывают их в основное хранилище, где данные находятся в сыром виде такими, какими они были в источнике. Дальше в работу вступают алгоритмы, которые занимаются обогащением полученных данных. Они берут, например, сырую фотографию, извлекают из неё дополнительные знания: задний фон, кто или что изображено, пол, возраст людей. Если это текст, то лингвистически обрабатывают его, понимают, кто и что сказал, где и как. Очищенные и структурированные данные перекладываются в хранилище №2, где хранится очищенная красивая дата, к которой можно обращаться и делать какие-то выводы. Следующий этап это наборы алгоритмов, которые обращаются к очищенному хранилищу, они собирают и анализируют информацию, агрегируют, обезличивают и передают её клиентам в виде исследований либо обновляемых панелей.
"ЗАВТРА". Как выглядит профиль человека, который есть в вашей базе данных? Какой набор информации он может содержать?
Артур ХАЧУЯН. Это мультипрофиль, в нём могут быть профили в социальных сетях, фотографии, геолокации, публикации, какие-то извлечённые знания. Если этот человек не запретил индексацию своей страницы в соцсетях, если он не закрыл её от друзей, она собственно доступна как через нас, так и через какой-нибудь поиск.
"ЗАВТРА". Что у нас происходит в законодательной сфере относительно распространения, использования открытых данных. Насколько легальна ваша деятельность?
Артур ХАЧУЯН. Сейчас всё легально, считается, что это "серая" зона, но по факту, юридически то, что делаем мы и другие компании не запрещено. Есть в законе много пунктов о том, что подобную обработку можно проводить, если это статистическое исследование, если это не политическая агитация и т.д. В данной сфере действует закон "О персональных данных "152 ФЗ, от 2006-го года. Сейчас хотят внести поправки, уже придумали странный термин "большие пользовательские данные", но трудно понять, что под ними подразумевается, потому что в законе написано, что персональные данные – это те, по которым вас можно идентифицировать: пол, возраст, телефон, домашний адрес. Я, например, могу вас идентифицировать по клавиатурному почерку, по тому, как вы взаимодействуете с интерфейсом, по тому контенту, который вы лайкаете. Поэтому современные технологии «переросли» этот закон. Посмотрим, что будет. По крайней мере, Европа приняла резолюцию об обработке персональных данных, но компании как работали, так и работают.
"ЗАВТРА". Как вы для себя это объясняете этический вопрос о том, что вы обрабатываете данные о человеке без его согласия? → http://zavtra.ru/blogs/total_naya_slezhka_ili_big_data
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев