Introduction of Big data, NoSQL & Hadoop

INTRODUCTION
NOSQLHADOOP.BIGDATA.

Big Data refers to TECHNOLOGY and INITIATIVES that involve data that
is too DIVERSE FAST-CHANGING or MASSIVE for conventional
technologies, skills and infrastructure to address efficiently.
1
WHAT IS BIG DATA?
BIGDATA

1
WHAT IS BIG DATA?
VOLUME
High data
capacity
(Terabytes or
petabytes)
BIGDATA
BIG DATA CHARACTERISTICS

1
WHAT IS BIG DATA?
VOLUME VELOCITY
High data
capacity
(Terabytes or
petabytes)
Batch
Real-time
Streams
BIGDATA

1
WHAT IS BIG DATA?
VOLUME VELOCITY VARIETY
High data
capacity
(Terabytes or
petabytes)
Batch
Real-time
Streams
Various kinds
(Structured, unstructured,
semi-structured)
BIGDATA

1
WHAT IS BIG DATA?
VOLUME VELOCITY VARIETY VERACITY
High data
capacity
(Terabytes or
petabytes)
Batch
Real-time
Streams
Various kinds
(Structured, unstructured,
semi-structured)
Quality
Consistency
Reliability
BIGDATA

Type Characteristics Examples Technology
S T RU C T U R E D
d a t a
Entities with a pre-defined
format/schema.
RDBMS records. RDBMS, NoSQL
S E M I -
S T RU C T U R E D
d a t a
Data is lesser, maybe a schema.
XML Files, JSON
files
NoSQL,
MapReduce
U N S T RU C T U R E D
d a t a
NO structure
Email content,
images, videos,
PDF files
MapReduce
1BIGDATA
BIG DATA
TYPES

1BIGDATA
BIG DATA CHALLENGES IN STORAGE&ANALYSIS
1. PROCESS SLOWLY, UNSCALABLE
SSD (800Mb/s, 2ms seek)
SATA (300Mb/s)
IDE drive (75MB/sec, 10ms seek)

1BIGDATA
2. UNRELIABLE MACHINE
Risky

1BIGDATA
3. RELIABILITY
Scalability
Data recovery
Partial failure

1BIGDATA
3. RELIABILITY
4. BACKUP

1BIGDATA
3. RELIABILITY
4. BACKUP
5. PARALLEL PROCESS

1BIGDATA
3. RELIABILITY
4. BACKUP
5. PARALLEL PROCESS
6. EXPENSIVE COST

2HADOOP
WHAT IS HADOOP ?
A free, Java-based framework that allows the DISTRIBUTED PROCESSING
of LARGE DATA SETS across CLUSTER OF COMPUTERS
using SIMPLE PROGRAMING MODELS

2HADOOP
WHAT IS HADOOP ?
HADOOP ORIGIN
GOOGLE PUBLISH
GFS & MAP
REDUCE PAPER
2 0 0 2 - 2 0 0 4
DOUGH CUTTING
ADD GFS & MAP
REDUCE TO NUTCH
2 0 0 4
YAHOO! HIRE DOUGH, BUILD
A TEAM TO DEVELOP
HADOOP
2 0 0 7
NY TIME CONVERT 4
TB OF ARCHIVE (100
EC2 CLUSTER)
Y

2HADOOP
WHAT IS HADOOP ?
HADOOP ORIGIN
WEB SCALE
DEVELOPMENT AT
YAHOO, FACEBOOK,
TWITTER
YAHOO! DOES
FASTEST SORT OF a
TB in 62 sec
2 0 0 9
YAHOO! SORT A PB IN
16.25 HOURS (3658
NODES)
APACHE HADOOP IS
NOW AN OPEN SOURCE
E CONVERT 4
ARCHIVE (100
CLUSTER)

2HADOOP
HADOOP ARCHITECTURE
Hadoop is designed and built on top two
independent parts
HADOOP
HDFSMAP REDUCE +
=
Storage file
system
Processing

2HADOOP
HADOOP ARCHITECTURE
+
Distributed across “NODES”
HDFS – Hadoop distributed file system

2HADOOP
HADOOP ARCHITECTURE
+
Provide actual storage
NAME NODE DATA NODE
Master of the system
Store meta data
Transaction blog, list of files,
list of block, data nodes
Maintain and manage blocks
on data nodes
Responsible for serving
read/write requests
Slaves; deployed on each machine.
Distributed across “NODES”

2HADOOP
HADOOP ARCHITECTURE
+
MODEL

2HADOOP
HADOOP ARCHITECTURE
+
MAP REDUCE
COMPONENTS
JOB TRACKER TASK TRACKER
Master & manage job & resource
in the cluster
Slaves, deployed on each machines
Running the map & reduce tasks
as job tracker requires

2HADOOP
HADOOP ARCHITECTURE
+
MAP REDUCE
MODEL

2HADOOP
HADOOP ARCHITECTURE
+
ALGORITHM
o Parallel algorithm
MAP REDUCE

2HADOOP
HADOOP ARCHITECTURE
+
ALGORITHM
o 3 basic steps
Map step
Split data into key & value
MAP REDUCE

2HADOOP
HADOOP ARCHITECTURE
ALGORITHM
o 3 basic steps
Map step
Shuffle step
Sorted by key
MAP REDUCE

2HADOOP
HADOOP ARCHITECTURE
+
ALGORITHM
o 3 basic steps
Map step
Shuffle step
Reduce step
Gather
Sorted by key
MAP REDUCE

o Logical functions: MAPPER & REDUCER
2HADOOP
HADOOP ARCHITECTURE
FUNCTIONS
o Hadoop handles distributing MAP & REDUCE tasks across the cluster
o MAP & REDUCE functions were written and submit .jars to
Hadoop clusters.
o Typically batch oriented.
MAP REDUCE

2HADOOP
HADOOP ARCHITECTURE
+
ECOSYSTEM
MODEL

2HADOOP
HADOOP FEATURES SUMMARY
+
STORE
ANYTHING
Unstructured data
semi structured data

2HADOOP
+
STORE
ANYTHING
Unstructured data,
STORAGE
CAPACITY
Scale linearly
Cost is not exponential

2HADOOP
+
STORAGE
CAPACITY
Scale linearly
DATA LOCALITY & PROCESS
IN YOUR WAY
STORE
ANYTHING
Unstructured data,

2HADOOP
+
STORE
ANYTHING
Unstructured data,
STORAGE
CAPACITY
Scale linearly
IN YOUR WAY
FAILURE & FAULT
TOLERANCE
Detect failure & heal
itself
(data replicated, failed task is
re-run, no need to maintain
backup data)

2HADOOP
+
STORE
ANYTHING
Unstructured data,
STORAGE
CAPACITY
Scale linearly
IN YOUR WAY
FAILURE & FAULT
TOLERANCE
Detect failure & heal itself
(data replicated, failed task is
re-run, no need to maintain
backup data)
COST
EFFECTIVE

2HADOOP
+
STORE
ANYTHING
Unstructured data,
STORAGE
CAPACITY
Scale linearly
IN YOUR WAY
FAILURE & FAULT
TOLERANCE
Detect failure & heal
itself
(data replicated, failed task
is re-run, no need to
maintain backup data)
COST
EFFECTIVE
PRIMARILY USED FOR BATCH
PROCESSING, NOT REAL-
TIME

2HADOOP
WHO IS USING HADOOP & FOR WHAT
+
SEARCH
LOG PROCESSING
RECOMMENDATION SYSTEMS
DATA WAREHOUSE
VIDEO & IMAGE ANALYSIS

2HADOOP
+
SEARCH
LOG PROCESSING
RECOMMENDATION SYSTEMS
DATA WAREHOUSE
VIDEO & IMAGE ANALYSIS
AND
MANY
MORE …
WHO IS USING HADOOP & FOR WHAT

3N O S Q L
WHAT IS NOSQL ?
NOSQL = Not Only SQL
SCHEMA FREE

3N O S Q L
WHAT IS NOSQL ?
SCHEMA FREE
NOSQL CATEGORIES
KEY
VALUE
STORE
DYNAMO, AZURE,
REDIS,
MEMCACHED

3N O S Q L
WHAT IS NOSQL ?
SCHEMA FREE
NOSQL CATEGORIES
KEY
VALUE
STORE
DYNAMO, AZURE,
REDIS,
MEMCACHED
BIG TABLE /
COLUM N
STORE
(GOOGLE )
HBASE; CASSANDAR
Similar to RBDMS but
handles semi - structured

3N O S Q L
WHAT IS NOSQL ?
SCHEMA FREE
NOSQL CATEGORIES
KEY
VALUE
STORE
DYNAMO, AZURE,
REDIS,
MEMCACHED
BIG TABLE /
COLUM N
STORE
(GOOGLE )
HBASE; CASSANDAR
GRAPH
DB NEO4J

3N O S Q L
WHAT IS NOSQL ?
SCHEMA FREE
NOSQL CATEGORIES
KEY
VALUE
STORE
DYNAMO, AZURE,
REDIS,
MEMCACHED
BIG TABLE /
COLUM N
STORE
(GOOGLE )
HBASE; CASSANDAR
GRAPH
DB NEO4J
DOCUM E NT
S TORE
MONGODB, REDIS, COUCHDB
Similar to key – value store but
DB knows what is the value

3N O S Q L
NOSQL
+
COLLECTION: is a group of RELATED DOCUMENTS
MONGO DB – DATA MODELING CONCEPT
In form of DOCUMENTS (JSON-liked key value).
Data in MongoDB has A FLEXIBLE SCHEMA.

3N O S Q L
NOSQL
+
No JOIN, instead, there are 2 types of DOCUMENT STRUCTURE
Reference Embedded

3N O S Q L
NOSQL
+
* Always consider the usage of data (queries or update) when designing data models
MODEL RELATIONSHIP
BETWEEN DOCUMENTS
MODEL TREE STRUCTURES
One - to - one
One - to - many
Parent reference
Child reference
Array of ancestors
Materialized paths
Nested sets

3N O S Q L
NOSQL
MONGO DB – CRUD OPERATIONS
COMPARING: SQL VS MONGO STATEMENTS
QUERY STATEMENT
CREATE / INSERT / UPDATE / DELETE

Introduction of Big data, NoSQL & Hadoop

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Introduction of Big data, NoSQL & Hadoop

Ähnlich wie Introduction of Big data, NoSQL & Hadoop (20)

Mehr von Savvycom Savvycom

Mehr von Savvycom Savvycom (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Introduction of Big data, NoSQL & Hadoop