Магия Spark: Как высокоуровневые конвейеры становятся распределенным хардкором

 /  RU /

Spark — самый популярный инструмент для построения конвейеров данных. Каждый дата-инженер знает Spark, бла-бла-бла... Отлично, но Spark всего лишь распределенные Java Streams, так? Но тогда, как это работает? Получается, что нельзя просто вызвать «flatMap» или «groupBy» на удаленную машину. Вступает Codegen! Заинтересовались? Приходите и узнайте больше!


Спикер(ы)

Паша Финкельштейн
JetBrains

Паша — серийный спикер и разработчик Big Data Tools в JetBrains. Автор Kotlin API for Apache Spark. В прошлом успел позаниматься почти всем в сфере IT: от поддержки и системного администрирования до менеджмента и дата инжиниринга. Очень любит людей и разговаривать. Обо всём, особенно об IT. Фанат Котлина.