Как ускорить Spark-приложение в задаче машинного обучения

День 2 /  / Зал 3  /  RU /

Apache Spark — популярное решение, когда речь идет о машинном обучении на больших объемах данных. При этом программировать на Spark несложно, а вот для того, чтобы добиться от приложения высокой производительности, необходимо понимать не только, как Spark устроен изнутри, но и с какими данными и в каком объеме вы имеете дело. В докладе описывается набор техник, примененных на «живом» проекте, которые позволили улучшить время выполнения конкретных джоб в 5-10 раз и в 10 раз уменьшили утилизацию кластера.


Артем Шутак
Артем Шутак
Grid Dynamics

Старший программист в компании Grid Dynamics, специализирующийся на обработке и анализе больших данных. Являлся full-time контрибьютером в Apache Ignite, поэтому имеет хорошее представление о том, как распределенные системы работают изнутри. Активно интересуется машинным обучением.