Магия Spark: Как высокоуровневые конвейеры становятся распределенным хардкором

Spark — самый популярный инструмент для построения конвейеров данных. Каждый дата-инженер знает Spark, бла-бла-бла... Отлично, но Spark всего лишь распределенные Java Streams, так? Но тогда, как это работает? Получается, что нельзя просто вызвать «flatMap» или «groupBy» на удаленную машину. Вступает Codegen! Заинтересовались? Приходите и узнайте больше!