VK Cloud

Сервис Cloud Spark для распределенной обработки данных любого объема доступен для всех пользователей VK Cloud Cloud Spark — это облачный сервис на основе Managed Kubernetes и Apache Spark для распределенной пакетной и потоковой обработки данных, работы с ML и аналитикой. С помощью Cloud Spark можно структурировать данные из разрозненных источников для создания аналитических и предиктивных систем, а также моделей машинного обучения. Преимущества Cloud Spark: ✅ За счет встроенных коннекторов Cloud Spark работает на быстрое чтение и запись больших объемов данных из разных источников. Например, ClickHouse, Apache Kafka и MongoDB. ✅ Поддержка масштабируемой библиотеки машинного обучения MLlib, позволяет реализовывать в облаке задачи машинного обучения. Алгоритмы Spark позволяют MLlib работать до 100 раз быстрее, чем MapReduce. ✅ Сервис реализован на базе Managed Kubernetes от VK Cloud. Автоматическое масштабирование Kubernetes позволяет экономить до 60% стоимости вычислительных ресурсов. ✅ Мы написали удобную клиентскую библиотеку на Python, которая позволяет управлять Cloud Spark из любого Python-окружения. Попробовать Cloud Spark: https://cloud.vk.com/spark/ Также для знакомства с темой рекомендуем посмотреть наш вебинар о практических аспектах эксплуатации Spark в Kubernetes: https://vk.cc/cu0xwk