Confitura 2018 - Sekretne życie jobów Sparkowych

Sekretne życie jobów Sparkowych
Marcin Jasiński
Paweł Leszczyński

O nas
● Data Platform Engineers @ Allegro.
● Rozwijamy jeden z większych ekosystemów Big Data w Polsce.
● Piszemy joby Sparkowe i uzdrawiamy joby innych.
● W każdy piątek jemy pizzę bez warzyw.

Agenda
● Trzy słowa o Sparku
● Cztery problemy ze Sparkiem
● Historia pewnego joba

Spark Dataset & Dataset API
A Dataset is a strongly typed collection
of domain-specific objects
that can be transformed in parallel
using functional or relational operations.
// To create Dataset[Row] using SparkSession
val people = spark.read.parquet("...")
val department = spark.read.parquet("...")

Akcje i transformacje
● Wynikiem transformacji jest nowy dataset
● Transformacja jest wykonywana leniwie po wywołaniu akcji
● Akcja wyzwala wykonanie wszystkich transformacji
potrzebnych do uzyskania datasetu wynikowego z danych
wejściowych.
people.filter("age > 30")
.join(department, people("deptId") === department("id"))
.groupBy(department("name"), people("gender"))
.agg(avg(people("salary")), max(people("age")))

Wąskie transformacje Szerokie transformacje
map, filter
`
union
`
groupByKey
join with inputs not
co-opartitioned
join with inputs
co-opartitioned

Worker
pipe
Driver
pipe
Worker
pipe
Worker
pipe
Worker
pipe
Jak działa PySpark?
BlockStorage

Worker
Driver
pipe
Worker
Worker
Worker
Jak działa PySpark?
BlockStorage

11
Cztery najczęstsze
problemy ze Sparkiem

Spark Web UI
● Active / Dead
● GC Time
● Input Size
● Shuffle size
● Disk Used
Problemy z Executorami

- Event Timeline
- Yarn Logs

Czasy poza Executor Computing Time powinny być możliwie najniższe.

Uczmy się na błędach
Spark History Server
Spark History Server

Job jest ubijany na klastrze,
yarn logi wskazują problemy z driverem.
Problemy z Driverem

Potencjalne problemy:
● błąd w kodzie
● duży collect
Problemy z Driverem

● błąd w kodzie -> fix kodu (testy)
● duży collect -> podbicie pamięci drivera
Problemy z Driverem

● błąd w kodzie -> fix kodu (testy)
● duży collect -> podbicie pamięci drivera
spark.driver.memory 1G
spark.driver.memoryOverhead spark.driver.memory * 0.10 + 384M
spark.driver.maxResultSize 1G
spark.driver.cores 1
Problemy z Driverem

Model pamięci - executor
overhead
spark.executor.memory
spark.executor.memoryOverhead
yarn
container
memory
execution
storage

OverHead memory - pyspark
overhead
“... dzieje się więcej w Pythonie
niż na JVM”
Arek O.

Ładujemy plik CSV lub JSON do przetworzeń i ładowanie
danych trwa bardzo długo.
Schema inferring

def inferFromDataset(json: Dataset[String], parsedOptions: JSONOptions): StructType =
{
val sampled: Dataset[String] = JsonUtils.sample(json, parsedOptions)
val rdd: RDD[InternalRow] = sampled.queryExecution.toRdd
val rowParser = parsedOptions.encoding.map { enc =>
CreateJacksonParser.internalRow(enc, _: JsonFactory, _: InternalRow)
}.getOrElse(CreateJacksonParser.internalRow(_: JsonFactory, _: InternalRow))
SQLExecution.withSQLConfPropagated(json.sparkSession) {
JsonInferSchema.infer(rdd, parsedOptions, rowParser)
}
}
Schema inferring - Fragment kodu źródłowego Sparka

def sample(json: Dataset[String], options: JSONOptions): Dataset[String] = {
require(options.samplingRatio > 0,
s"samplingRatio (${options.samplingRatio}) should be greater than 0")
if (options.samplingRatio > 0.99) {
json
} else {
json.sample(withReplacement = false, options.samplingRatio, 1)
}
}
val samplingRatio =
parameters.get("samplingRatio").map(_.toDouble).getOrElse(1.0)
Schema inferring - Fragment kodu źródłowego Sparka:

from pyspark.sql.types import *
schema = StructType([
StructField('thread_name', StringType()),
StructField('app_name', StringType()),
StructField('level', StringType()),
...
StructField('heap_size', LongType()),
StructField('gc_time', LongType())
])
df = spark.read.csv("data.csv", schema=schema, header=True)
Schema inferring

bez schematu
%timeit df = spark.read.csv("data.csv", header=True,
inferSchema=True)
38 s ± 2.52 s per loop
ze schematem
%timeit df = spark.read.csv("data.csv", schema=schema,
header=True)
6.38 s ± 847 µs per loop
Schema inferring

Na każdym elemencie datasetu wykonujemy operację,
która wymaga połączenia do zewnętrznej usługi.
Map vs mapPartitions

● Chcemy:
○ ograniczać ilość połączeń,
○ mieć możliwość wykonania operacji na wielu rekordach.

● Chcemy:
○ ograniczać ilość połączeń,
○ mieć możliwość wykonania operacji na wielu rekordach.
Rozwiązaniem jest mapParititions.

import time
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 3)
def connect_mock_1(element):
time.sleep(1)
return type(element)
def connect_mock_2(iterator):
time.sleep(1)
for element in iterator:
yield type(element)
% timeit rdd.map(connect_mock_1).collect()
% timeit rdd.mapPartitions(connect_mock_2).collect()

import time
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 3)
def connect_mock_1(element):
time.sleep(1)
return type(element)
def connect_mock_2(iterator):
time.sleep(1)
for element in iterator:
yield type(element)
% timeit rdd.map(connect_mock_1).collect()
3.04 s ± 6.34 ms per loop
% timeit rdd.mapPartitions(connect_mock_2).collect()
1.04 s ± 5.73 ms per loop

Korzystam z dynamic resource allocation,
a mimo to mam problem z alokacją zasobów.
Dynamic resource allocation TTL vs cache

● Job uruchomiony poprawnie,
● Dynamic resource allocation włączone,
● Parametry dostosowane do potrzeb,
● Wszystko wygląda idealnie.

Hmmm….?

● Wszystko wygląda idealnie,
A może to cache?

A może to cache?
spark.dynamicAllocation.cachedExecutorIdleTimeout
default: infinity

Dynamic resource allocation TTL vs cache - jak to działa
Spark Job
Executor 112
Executor 2
enabled true
executorIdleTimeout 60s
cachedExecutorIdleTimeout infinity
initialExecutors 2
minExecutors 2
maxExecutors 10

Spark
Job
Executor 1
12
Executor 2
Executor 312
Executor 4
Executor 5
executorIdleTimeout 60s

Spark
Job
Executor 1
12
Executor 2
Executor 312
Executor 4
Executor 5
Po 60 sekundach bezczynne executory są zatrzymywane

Spark
Job
Executor 1
12
Executor 2
Executor 312
Executor 4
Executor 5
cachedExecutorIdleTimeout infinity
Cache
Cache
Cache
Cache
Cache

Spark
Job
Executor 1
12
Executor 2
Executor 312
Executor 4
Executor 5
cachedExecutorIdleTimeout 120s
Cache
Cache
Cache
Cache
Cache

Sprytny Join
30/06/201829/06/201828/06/201801/06/2018
Dataset A:
Frazy wyszukiwania
30/06/201829/06/201828/06/201801/06/2018
Dataset B:
Decyzje zakupowe
● Dane na HDFS są partycjonowane dziennie.
● Problem: Jak połączyć decyzję zakupową z ostatnią frazą wyszukania, która została użyta nie
dłużej niż X godzin przed decyzją?
A join B on A.client = B.client and B.timestamp - A.timestamp < X godzin

Sprytny join - cogroup
(A, 1) (D, 2) (D, [2], [])
(C, [1, 4]) cogroup (A, 3) = (C, [1,4], [])
(B, [2, 3]) (B, [1,3] (A, [1], [3])
(B, [2,3], [1,3])
Rozwiązanie naszego problemu:
● A.groupby('clientId') - dostajemy mapę clientId => lista wyszukiwań
● B.groupby('clientId') - dostajemy mapę clientId => lista decyzji zakupowych
● Wykonujemy cogroupa na powyższych i otrzymujemy mapę
○ clientId => [lista elementów zbioru A], [lista elementów zbioru B]
○ łączymy posortowane listy w posortowną listę
○ iterujemy po niej w poszukiwaniu par (wyszukanie, zakup) w odstępie X godzin

Sprytny join - łączenie danych partycjonowanych dziennie
30/06/201829/06/201828/06/201801/06/2018
Dataset A:
Frazy wyszukiwania
30/06/201829/06/201828/06/201801/06/2018
Dataset B:
Decyzje zakupowe
● Join na całym miesiącu był bardzo ciężki, wymagał podniesienia całego
datasetu, a dane nie mieściły się w pamięci.
● Jeśli dane nie mieszczą się w pamięci, to Spark zwalnia!

Sprytne joiny - iteracyjny join
for day in days:
one_day_dataset_A = fetch_one_day(dataset_A).cache()

for day in days:
dailyJoinResult = joinOneDay(
one_day_before_dataset_A.union(one_day_dataset_A),
fetch_one_day(dataset_B)
).cache()

for day in days:
dailyJoinResult = joinOneDay(
one_day_before_dataset_A.union(one_day_dataset_A),
fetch_one_day(dataset_B)
).cache()
result = result.union(dailyJoinResult)
one_day_before_dataset_A = one_day_dataset_A

Job przed i po
I ETAP
● Usunęliśmy niepotrzebnego repartition’a na początku przetwarzań
● Zmniejszyliśmy liczbę executorów z 240 do 100.
● Job nadal wykonywał się w czasie akceptowalnym biznesowo
przed zmianami po zmianach
Ilość executorów 240 100

Job przed i po
II ETAP
● Wczytanie danych JSON z zadanym schematem
● Zmiana joinowania na podejście iteracyjne
Dane z 10 dni przed zmianami po zmianach
Ilość executorów 50 20
Czas wykonania 98 mins 23 sec 24 mins 22 sec
YARN MB-seconds 2,768,187,887 229,664,298
YARN Vcore-seconds 270,235 22,418

Każdy job wymaga
indywidualnego podejścia.

Confitura 2018 - Sekretne życie jobów Sparkowych

Recommended

Recommended

More Related Content

Similar to Confitura 2018 - Sekretne życie jobów Sparkowych

Similar to Confitura 2018 - Sekretne życie jobów Sparkowych (20)

Confitura 2018 - Sekretne życie jobów Sparkowych