Самое главное, 90% участников, сделавших хотя бы один сабмит, в итоге смогли преодолеть порог и оказались в лидерборде. При этом 80% не смогли на этом остановиться — они сабмитят еще и еще, непрерывно улучшая свои результаты. Но есть и обратная сторона медали — социологический опрос показал, что очень многие потенциальные участники так и не решились сделать первый шаг, хотя и считают нашу задачу интересной.
Действительно, решение поставленной задачи для многих требует выхода из зоны комфорта: освоения новых технологий, проведения ресурсоемких вычислений и проявления нестандартного мышления. Но те, кто все-таки решился начать, оказываются вознаграждены сполна: выброс дофамина от вида своего имени в лидерборде придает бодрости и вызывает непреодолимое желание сабмитить еще и еще :)
На самом деле наиболее сложным здесь является именно решение начать, после чего от лидерборда вас отделяет лишь несколько простых шагов:
1. Качаем спарк http://www.apache.org/dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgz , распаковываем архив — и вот вы уже в мире больших данных :).
2. Качаем сами данные https://cloud.mail.ru/public/GtHV/JNYJbuTV1 .
3. Код базового решения тоже можно скачать в один клик: https://github.com/snahackathon/sh2016/archive/master.zip . Без регистрации и СМС.
4. Чтобы всех воедино собрать ставим sbt — инсталяторы доступны под все популярные платформы http://www.scala-sbt.org/0.13/docs/Setup.html .
5. sbt package, spark-submit — и ноутбук придется отложить часа на 4 а то и на всю ночь (не забудьте подключить зарядку!). И вот первый пакет с результатами готов.
Осталось совсем чуть-чуть — изменив несколько слов в базовом решении получить +3 бала к точности, необходимые для прохождения порога :).
Естественно, тяжелую часть вычислений с подсчетом общих друзей повторять не надо — результаты уже сохранены у вас на диске. Более того, в дальнейшем можно вернутся к привычным и уютным Python и R используя их интеграцию с паркетом и спарком ( https://github.com/jcrobak/parquet-python и https://github.com/amplab-extras/SparkR-pkg ).
Не отказывайте себе в удовольствии попробовать что-то новое, присоединяйтесь к нашему конкурсу!
https://blogs.msdn.microsoft.com/arsen/2016/02/09/resolving-spark-1-6-0-java-lang-nullpointerexception-not-found-value-sqlcontext-error-when-running-spark-shell-on-windows-10-64-bit/ Еще несколько распространенных проблем:
...Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Комментарии 2
Создатели страницы сделали гениальный шаг: создали распределенную технологию, которая может для них полезно работать. Заодно и кадры себе подыщут.