SlideShare a Scribd company logo
1 of 1
Download to read offline
Jak funguje MapReduce
Kamil Brzák
Indexer 3
Indexer 2Raw data
 Splunk umí Big Data
 Big Data milujeme
 Splunk milujeme
 Chceme Splunk
 Splunk umí Big Data
 Big Data milujeme
 Splunk milujeme
 Chceme Splunk
 Splunk, 1
 Umí, 1
 Big, 1
 Data, 1
 Big, 1
 Data, 1
 Milujeme, 1
 Splunk, 1
 Milujeme, 1
 Chceme, 1
 Splunk, 1
INPUT SPLITTING MAPPING
 Splunk, 1
 Splunk, 1
 Splunk, 1
 Umí, 1
 Big, 1
 Big, 1
 Data, 1
 Data, 1
 Milujeme, 1
 Milujeme, 1
 Chceme, 1
SHUFFLING
&
SORTING
 Splunk, 3
 Umí, 1
 Big, 2
 Data, 2
 Milujeme, 2
 Chceme, 2
REDUCE
 Splunk, 3
 Umí, 1
 Big, 2
 Data, 2
 Milujeme, 2
 Chceme, 2
OUTPUT
Zadání požadavku na
MapReduce
vstupních dat (např.
textové soubory)
Rozdělení vstupních
dat na logické bloky
pro následné
souběžné zpracování
(např. z každého
řádku textového
souboru vytvoří
záznam)
INPUT READER
Kvůli urychlení je na
každý logický blok
aplikována
samostatná funkce
Map (např. rozdělí
souběžně řádky/
záznamy na
jednotlivá slova) -
jinými slovy za každé
pivo napíše čárku
DISTRIBUTED FILE
SYSTEM
(STABLE STORAGE)
MULTIPLE MAP
FUNCTION
MULTIPLE PARTITION
FUNCTION
(REDUCERS)
COMPARISON
FUNCTION
MULTIPLE REDUCE
FUNCTION
Následně dochází k
souběžnému
setřídění (a
promíchání/výměně
mezi výpočetními uzly
clusteru)
Poté se sečtou stejná
slova...
...a vygeneruje
seznam slov s jejich
počtem
OUTPUT WRITER
(STABLE STORAGE)
Splunk index
Rozdělení dat na tzv.
chunky
Ekvivalent příkazu search ve Splunku
MapReduce nad každým chunkem
Zápis výsledku
vyhledávání

More Related Content

More from Kamil Brzak

More from Kamil Brzak (8)

3 times-zen-and-splunk
3 times-zen-and-splunk3 times-zen-and-splunk
3 times-zen-and-splunk
 
Splunk for Business
Splunk for BusinessSplunk for Business
Splunk for Business
 
Porovnání Splunk / Arcsight Logger
Porovnání Splunk / Arcsight LoggerPorovnání Splunk / Arcsight Logger
Porovnání Splunk / Arcsight Logger
 
Porovnání Splunk / Elasticsearch / Logscape
Porovnání Splunk / Elasticsearch / LogscapePorovnání Splunk / Elasticsearch / Logscape
Porovnání Splunk / Elasticsearch / Logscape
 
Jsem ainu, jsem člověk
Jsem ainu, jsem člověkJsem ainu, jsem člověk
Jsem ainu, jsem člověk
 
Hunk - nasazení analytiky nad Hadoopem do 60 minut
Hunk - nasazení analytiky nad Hadoopem do 60 minutHunk - nasazení analytiky nad Hadoopem do 60 minut
Hunk - nasazení analytiky nad Hadoopem do 60 minut
 
Big data v infrastruktuře
Big data v infrastruktuřeBig data v infrastruktuře
Big data v infrastruktuře
 
Glance Card
Glance CardGlance Card
Glance Card
 

Jak funguje MapReduce?

  • 1. Jak funguje MapReduce Kamil Brzák Indexer 3 Indexer 2Raw data  Splunk umí Big Data  Big Data milujeme  Splunk milujeme  Chceme Splunk  Splunk umí Big Data  Big Data milujeme  Splunk milujeme  Chceme Splunk  Splunk, 1  Umí, 1  Big, 1  Data, 1  Big, 1  Data, 1  Milujeme, 1  Splunk, 1  Milujeme, 1  Chceme, 1  Splunk, 1 INPUT SPLITTING MAPPING  Splunk, 1  Splunk, 1  Splunk, 1  Umí, 1  Big, 1  Big, 1  Data, 1  Data, 1  Milujeme, 1  Milujeme, 1  Chceme, 1 SHUFFLING & SORTING  Splunk, 3  Umí, 1  Big, 2  Data, 2  Milujeme, 2  Chceme, 2 REDUCE  Splunk, 3  Umí, 1  Big, 2  Data, 2  Milujeme, 2  Chceme, 2 OUTPUT Zadání požadavku na MapReduce vstupních dat (např. textové soubory) Rozdělení vstupních dat na logické bloky pro následné souběžné zpracování (např. z každého řádku textového souboru vytvoří záznam) INPUT READER Kvůli urychlení je na každý logický blok aplikována samostatná funkce Map (např. rozdělí souběžně řádky/ záznamy na jednotlivá slova) - jinými slovy za každé pivo napíše čárku DISTRIBUTED FILE SYSTEM (STABLE STORAGE) MULTIPLE MAP FUNCTION MULTIPLE PARTITION FUNCTION (REDUCERS) COMPARISON FUNCTION MULTIPLE REDUCE FUNCTION Následně dochází k souběžnému setřídění (a promíchání/výměně mezi výpočetními uzly clusteru) Poté se sečtou stejná slova... ...a vygeneruje seznam slov s jejich počtem OUTPUT WRITER (STABLE STORAGE) Splunk index Rozdělení dat na tzv. chunky Ekvivalent příkazu search ve Splunku MapReduce nad každým chunkem Zápis výsledku vyhledávání