SDEC2011 Replacing legacy Telco DB/DW to Hadoop and Hive

SDEC 2011
Seoul Data Engineering Camp
June 27-28
Seoul, South Korea

Replacing Legacy Telco DB/DW
to Hadoop and Hive

JunHo Cho
NexR

Agenda

• Motivation for Hive and Hadoop

Agenda

• Hive Internal

Agenda

• Hive Internal
• Oracle Migration UseCase

Agenda

• Hive Internal
• Hive Optimization

Agenda

• Hive Internal
• Hive Optimization
• Future Work

qu er
Co n
de &
Di vi

OpenSource

Storage & Computing

OpenSource

Collection

OpenSource

Analysis

OpenSource

Coordination

What is HIVE ?
• A system for managing and querying structured data
built on top of Hadoop
• Map-Reduce for execution
• HDFS for storage
• Metadata in an RDBMS

What is HIVE ?
• A system for managing and querying structured data
built on top of Hadoop
• Map-Reduce for execution
• HDFS for storage
• Metadata in an RDBMS

• Key Building Principles
• SQL is a familiar language
• Extensibility - Types, Functions, Formats, Scripts
• Performance

public class CallCountMapper extends MapReduceBase
implements Mapper<LongWritable, Text, Text, IntWritable> {

private final IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(WritableComparable key, Writable value,
OutputCollector output, Reporter reporter) throws IOException {

String line = value.toString();
StringTokenizer itr = new StringTokenizer(line.toLowerCase());
word.set(itr.nextToken());
output.collect(word, one);
}
}



er

app

M

}
}



er

app

M

}
}

public class CallCountReducer extends MapReduceBase
implements Reducer<Text, IntWritable, Text, IntWritable> {

public void reduce(Text key, Iterator values,

int sum = 0;
while (values.hasNext()) {
IntWritable value = (IntWritable) values.next();
sum += value.get(); // process value
}

output.collect(key, new IntWritable(sum));
}
}



er

app

M

}
}

implements Reducer<Text, IntWritable, Text, IntWritable> {

public void reduce(Text key, Iterator values,

er

uc
int sum = 0;

ed
while (values.hasNext()) {

R
IntWritable value = (IntWritable) values.next();
}

}
}

public class CallCountMapper extends MapReduceBase public class CallCount {
public static void main(String[] args) {
private final IntWritable one = new IntWritable(1); JobClient client = new JobClient();

er
private Text word = new Text(); JobConf conf = new JobConf(WordCount.class);

app
public void map(WritableComparable key, Writable value, // specify output types

M
OutputCollector output, Reporter reporter) throws IOException { conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);
StringTokenizer itr = new StringTokenizer(line.toLowerCase()); // specify input and output dirs
word.set(itr.nextToken()); FileInputPath.addInputPath(conf, new Path("input"));
output.collect(word, one); FileOutputPath.addOutputPath(conf, new Path("output"));
}
} // specify a mapper
conf.setMapperClass(KeyCountMapper.class);

// specify a reducer
conf.setReducerClass(CallCountReducer.class);
conf.setCombinerClass(CallCountReducer.class);
implements Reducer<Text, IntWritable, Text, IntWritable> { client.setConf(conf);
try {
public void reduce(Text key, Iterator values, JobClient.runJob(conf);

er
OutputCollector output, Reporter reporter) throws IOException { } catch (Exception e) {

uc
e.printStackTrace();
int sum = 0; }

ed
while (values.hasNext()) { }

R
IntWritable value = (IntWritable) values.next(); }
}

}
}

public class CallCountMapper extends MapReduceBase public class CallCount {
public static void main(String[] args) {
private final IntWritable one = new IntWritable(1); JobClient client = new JobClient();

er
private Text word = new Text(); JobConf conf = new JobConf(WordCount.class);

app
public void map(WritableComparable key, Writable value, // specify output types

M
OutputCollector output, Reporter reporter) throws IOException { conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);

er
StringTokenizer itr = new StringTokenizer(line.toLowerCase()); // specify input and output dirs

riv
word.set(itr.nextToken()); FileInputPath.addInputPath(conf, new Path("input"));
output.collect(word, one); FileOutputPath.addOutputPath(conf, new Path("output"));

D
}
} // specify a mapper
conf.setMapperClass(KeyCountMapper.class);

// specify a reducer
conf.setReducerClass(CallCountReducer.class);
conf.setCombinerClass(CallCountReducer.class);
implements Reducer<Text, IntWritable, Text, IntWritable> { client.setConf(conf);
try {
public void reduce(Text key, Iterator values, JobClient.runJob(conf);

er
OutputCollector output, Reporter reporter) throws IOException { } catch (Exception e) {

uc
e.printStackTrace();
int sum = 0; }

ed
while (values.hasNext()) { }

R
IntWritable value = (IntWritable) values.next(); }
}

}
}

SELECT pnum, count(pnum)
FROM cdr
GROUP BY pnum;

History of Hive
• Hive development cycle is fast and the developer
community is growing rapidly

• Product release cycle is accelerating

Project
started 0.3.0 0.4.0 0.5.0 0.6.0 0.7.0 0.7.1

03/08 4/09 12/09 02/10 10/10 03/11 06/11

Who use Hive?

http://wiki.apache.org/hadoop/Hive/PoweredBy

UseCase in Hive?
• Report and ad hoc query

UseCase in Hive?
• Log Analysis

UseCase in Hive?
• Log Analysis
• Social Graph Analysis

UseCase in Hive?
• Log Analysis
• Data mining and analysis

UseCase in Hive?
• Log Analysis
• Machine Learning

UseCase in Hive?
• Log Analysis
• Dataset cleaning

UseCase in Hive?
• Log Analysis
• Dataset cleaning
• Data Warehouse

Hive Architecture

UI Driver

DDL HQL
Execution
Works
Engine
MetaStore Compiler
ORM Hadoop
Result

Hive Architecture

UI Driver select col1 from tab1 where ...

DDL HQL
Execution
Works
Engine
MetaStore Compiler
ORM Hadoop
Result

Hive Architecture
a 123344
b 121211
c 342434

UI Driver

DDL HQL
Execution
Works
Engine
MetaStore Compiler
ORM Hadoop
Result

Hive Internal
Map Reduce
Web UI Hive CLI JDBC
TSOperator User Script
Browse, Query, DDL
UDF/UDAF
SELOperator
substr
sum
MetaStore Hive QL FSOperator average

Thrift API Parser ExecMapper/ExecReducer
Plan SerDe

Optimizer Input/OutputFormat

Task
HDFS StorageHandler
RCFile
DB ... HBase

Parser
Parser
Select col1,col2 From tab1 Where col3 > 5

TOK_QUERY

TOK_FROM TOK_INSERT

TOK_DESTINATION TOK_SELECT TOK_WHERE

TOK_TABNAME
TOK_SELEXPR TOK_SELEXPR

TOK_DIR
>

TOK_TABLE_OR_COL TOK_TABLE_OR_COL

TOK_TMP_FILE
TOK_TABLE_OR_COL 5

Parser
Parser

QB
TOK_QUERY

TOK_FROM TOK_INSERT


TOK_TABNAME

TOK_DIR
>


TOK_TMP_FILE
TOK_TABLE_OR_COL 5

Parser
Parser

TOK_QUERY

TOK_FROM TOK_INSERT


TOK_TABNAME
QB tab1
TOK_DIR
>


TOK_TMP_FILE
TOK_TABLE_OR_COL 5

Parser
Parser

TOK_QUERY

TOK_FROM TOK_INSERT


TOK_TABNAME
tab1
TOK_DIR
>


TOK_TMP_FILE
TOK_TABLE_OR_COL 5

QB insclause-0

Parser
Parser

TOK_QUERY

TOK_FROM TOK_INSERT


TOK_TABNAME
tab1
TOK_DIR
>


TOK_TMP_FILE
col1 QB
TOK_TABLE_OR_COL 5

insclause-0

Parser
Parser

TOK_QUERY

TOK_FROM TOK_INSERT


TOK_TABNAME
tab1
TOK_DIR
>


col1 col2 QB
TOK_TMP_FILE
TOK_TABLE_OR_COL 5

insclause-0

Parser
Parser

TOK_QUERY

TOK_FROM TOK_INSERT

TOK_DESTINATION TOK_SELECT TOK_WHERE QB
TOK_TABNAME
tab1
TOK_DIR
>


col1 col2
TOK_TMP_FILE
TOK_TABLE_OR_COL 5

insclause-0

Plan
Plan

QB

Plan
Plan

QB

TOK_FROM

TOK_WHERE

TOK_SELECT

TOK_DESTINATION

Plan
Plan

QB

TOK_FROM TableScanOperator

TOK_WHERE

TOK_SELECT

TOK_DESTINATION

Plan
Plan

QB


TOK_WHERE FilterOperator

TOK_SELECT

TOK_DESTINATION

Plan
Plan

QB



TOK_SELECT SelectOperator

TOK_DESTINATION

Plan
Plan

QB



TOK_SELECT SelectOperator

TOK_DESTINATION FileSinkOperator

Optimizer
Optimizer Select col1,col2 From tab1 Where col3 > 5

TableScanOperator

FilterOperator

SelectOperator

FileSinkOperator

Optimizer

tab1 {col1, col2, col3, col4,col5,col6,col7}

TableScanOperator

FilterOperator

SelectOperator

FileSinkOperator

Optimizer

Context

TableScanOperator

FilterOperator
ColumnPruner

SelectOperator

FileSinkOperator

Optimizer

Context

TableScanOperator

FilterOperator FIL
ColumnPruner TS
SEL
SelectOperator

FileSinkOperator

Optimizer


TableScanOperator

FilterOperator FIL
ColumnPruner TS
SEL
SelectOperator

FileSinkOperator Context

Optimizer


TableScanOperator

FilterOperator
ColumnPruner

SelectOperator
FIL
FileSinkOperator Context TS
SEL

Optimizer


TableScanOperator

FilterOperator
ColumnPruner

FIL
SelectOperator Context TS
SEL

FileSinkOperator

Optimizer


TableScanOperator

FilterOperator
ColumnPruner

FIL
SelectOperator Context TS
SEL col1, col2

FileSinkOperator

Optimizer


TableScanOperator

FIL col1, col2, col3
FilterOperator Context TS
ColumnPruner
SEL

SelectOperator

FileSinkOperator

Optimizer


TableScanOperator

FIL
FilterOperator Context TS
ColumnPruner
SEL

SelectOperator

FileSinkOperator

Optimizer


FIL
TableScanOperator Context TS col1, col2, col3
SEL

FilterOperator
ColumnPruner

FilterOperator

SelectOperator

FileSinkOperator

Task
Task Select col1,col2 From tab1 Where col3 > 5

TS - GenMRTableScan1
TaskFactory
FS - GenMRFileSink1
QB

Task

TaskFactory
FS - GenMRFileSink1
QB

FetchTask

Task

TaskFactory
FS - GenMRFileSink1
QB

TableScanOperator

FilterOperator FetchTask

FilterOperator

SelectOperator

FileSinkOperator

Task

TaskFactory
FS - GenMRFileSink1
QB
MapRedTask

TableScanOperator


FilterOperator

SelectOperator

FileSinkOperator

Task

TaskFactory

QB
MapRedTask

TableScanOperator


FilterOperator

SelectOperator

FileSinkOperator

Task

TaskFactory

QB
MapRedTask
MapRedTask
TableScanOperator


FilterOperator

SelectOperator

FileSinkOperator

Hive Internal
Map Reduce
Web UI Hive CLI JDBC
TSOperator User Script
Browse, Query, DDL
UDF
FILOperator SELOperator

MetaStore Hive QL FILOperator FSOperator

Thrift API Parser ExecMapper/ExecReducer
Plan SerDe

Optimizer Input/OutputFormat

Task
HDFS StorageHandler
RCFile
DB ... HBase

Oracle Migration
to Hive

l
l

l

l

l

l l
l l
l l
l l
l l

Data Model
Hive Entity Sample HDFS LOC

Data Model
Table

Data Model
Table Log /hive/Log

Data Model
Table Log /hive/Log

Partition

Data Model
Table Log /hive/Log

Partition time=hour /hive/Log/time=1h

Data Model
Table Log /hive/Log


Bucket

Data Model
Table Log /hive/Log


/wh/Log/time=1h/
Bucket phone-num
part-$hash(phone-num)

Data Model
Table Log /hive/Log


/wh/Log/time=1h/
Bucket phone-num

External
Table

Data Model
Table Log /hive/Log


/wh/Log/time=1h/
Bucket phone-num

External /app/meta/dir
customer (arbitrary location)
Table

Data Model
MetaStore HDFS

Table
Data Location Partition
Bucketing Info
Partitioning Info
part-001

Bucket

Partition
MetaStore DB
/hive/Log
/hive/Log/time=1h
/hive/Log/time=1h/part-0001

Column Data Types
• Primitive Types
• int type : tinyint, smallint, int, bigint
• boolean, ﬂoat, double, string

Column Data Types
• Primitive Types
• Nest-able Collections
• array : value(any-type)
• map : key(primitive) and value(any-type)

Column Data Types
• Primitive Types
• Nest-able Collections
• array : value(any-type)
• map : key(primitive) and value(any-type)
• User-deﬁned types
• structures with attributes

DataType Convert

NUMBER(n)

DataType Convert

NUMBER(n) TINYINT
INT/BIGINT

DataType Convert

NUMBER(n) TINYINT
INT/BIGINT

NUMBER(n,m)

DataType Convert

NUMBER(n) TINYINT
INT/BIGINT

NUMBER(n,m) FLOAT/DOUBLE

DataType Convert

NUMBER(n) TINYINT
INT/BIGINT


VARCHAR2

DataType Convert

NUMBER(n) TINYINT
INT/BIGINT


VARCHAR2 STRING

DataType Convert

NUMBER(n) TINYINT
INT/BIGINT


VARCHAR2 STRING

DATE

DataType Convert

NUMBER(n) TINYINT
INT/BIGINT


VARCHAR2 STRING

DATE STRING
“yyyy-MM-dd HH:mm:ss” format

Oracle DML

• HIVE supports ANSI-SQL
• Sub-Queries in FROM clause
• Join query : equi-join/inner-join , outer-join

Range Operator
BETWEEN ~ AND ~

Range Operator
BETWEEN ~ AND ~
SELECT * from Employee WHERE

salary BETWEEN 100 AND 500;

Range Operator
BETWEEN ~ AND ~



salary >= 100 AND salary <=500;

Range Operator
BETWEEN ~ AND ~



salary >= 100 AND salary <=500;

BETWEEN(salary,100,500);

IN / EXISTS Clause
IN / EXISTS SubQuery

IN / EXISTS Clause
SELECT * from Employee e WHERE e.DeptNo

IN(SELECT d.DeptNo FROM Dept d)

IN / EXISTS Clause

SELECT * from Employee e WHERE

EXISTS(SELECT )
1 FROM Dept d WHERE e.DeptNo=d.DeptNo

IN / EXISTS Clause


EXISTS(SELECT 1 FROM Dept d WHERE e.DeptNo=d.DeptNo )

SELECT * from Employee e

LEFT SEMI JOIN Dept d ON (e.DeptNo=d.DeptNo)

NOT IN Clause
NOT IN SubQuery

NOT IN Clause
NOT IN SubQuery

NOT IN(SELECT d.DeptNo FROM Dept d)

NOT IN Clause
NOT IN SubQuery

NOT IN(SELECT d.DeptNo FROM Dept d)

SELECT e.* from Employee e

LEFT OUTER JOIN Dept d ON (e.DeptNo=d.DeptNo)

WHERE d.DeptNo IS NULL

NOT EXIST Clause
NOT EXIST SubQuery

NOT EXIST Clause
NOT EXIST SubQuery

NOT EXISTS(SELECT 1 FROM Dept d WHERE e.DeptNo=d.DeptNo )

NOT EXIST Clause
NOT EXIST SubQuery

NOT EXISTS(SELECT 1 FROM Dept d WHERE e.DeptNo=d.DeptNo )

SELECT e.* from Employee e

LEFT OUTER JOIN Dept d ON (e.DeptNo=d.DeptNo)

WHERE d.DeptNo IS NULL

LIKE Clause
LIKE / NOT LIKE

LIKE Clause
LIKE / NOT LIKE

SELECT * from Employee e WHERE name LIKE ’%steve’

LIKE Clause
LIKE / NOT LIKE


SELECT e.* from Employee e WHERE name LIKE ‘%steve’

LIKE Clause
LIKE / NOT LIKE


SELECT * from Employee e WHERE name NOT LIKE ’%steve’


LIKE Clause
LIKE / NOT LIKE


SELECT * from Employee e WHERE name NOT LIKE ’%steve’


SELECT e.* from Employee e WHERE NOT name LIKE ‘%steve’

JOIN Operator (1/4)
SELF JOIN

JOIN Operator (1/4)
SELF JOIN
SELECT *

FROM Employee e1, Employee e2 WHERE e1.ID = e2.Id

JOIN Operator (1/4)
SELF JOIN
SELECT *

FROM Employee e1, Employee e2 WHERE e1.ID = e2.Id

SELECT *

FROM Employee e1 JOIN Employee e2 ON (e1.ID = e2.Id )

JOIN Operator (2/4)
CROSS JOIN (Cartesian Product)

JOIN Operator (2/4)

SELECT emp.Name, dept.Name FROM Employee emp, Dept dep

JOIN Operator (2/4)

SELECT emp.Name, dept.Name FROM Employee emp, Dept dep

SELECT emp.Name, dept.Name FROM Employee emp JOIN Dept dep

JOIN Operator (3/4)
LEFT OUTER JOIN

JOIN Operator (3/4)
LEFT OUTER JOIN

FROM Emp, Dept
SELECT *

WHERE Emp.deptNo = Dept.deptNo(+)

JOIN Operator (3/4)
LEFT OUTER JOIN

FROM Emp, Dept
SELECT *

WHERE Emp.deptNo = Dept.deptNo(+)

FROM Emp
SELECT *

LEFT OUTER JOIN Dept ON Emp.deptNO = Dept.deptNo

JOIN Operator (4/4)
RIGHT OUTER JOIN

JOIN Operator (4/4)
RIGHT OUTER JOIN

FROM Emp, Dept
SELECT *

WHERE Emp.deptNo(+) = Dept.deptNo

JOIN Operator (4/4)
RIGHT OUTER JOIN

FROM Emp, Dept
SELECT *

WHERE Emp.deptNo(+) = Dept.deptNo

FROM Emp
SELECT *

RIGHT OUTER JOIN Dept ON Emp.deptNO = Dept.deptNo

Condition Function
CASE
CASE expr WHEN THEN r1
cond1

[WHEN cond2 THEN r2]* [ELSE r] END

Condition Function
CASE
cond1


cond1


Math Function

ROUND

Math Function

ROUND ROUND

Math Function

ROUND ROUND
CEIL

Math Function

ROUND ROUND
CEIL CEIL/CEILING

Math Function

ROUND ROUND
CEIL CEIL/CEILING
MOD

Math Function

ROUND ROUND
CEIL CEIL/CEILING
MOD PMOD

Math Function

ROUND ROUND
CEIL CEIL/CEILING
MOD PMOD
POWER

Math Function

ROUND ROUND
CEIL CEIL/CEILING
MOD PMOD
POWER POW/POWER

Math Function

ROUND ROUND
CEIL CEIL/CEILING
MOD PMOD
POWER POW/POWER
SQRT

Math Function

ROUND ROUND
CEIL CEIL/CEILING
MOD PMOD
POWER POW/POWER
SQRT SQRT

Math Function

ROUND ROUND
CEIL CEIL/CEILING
MOD PMOD
POWER POW/POWER
SQRT SQRT
SIN/COS

Math Function

ROUND ROUND
CEIL CEIL/CEILING
MOD PMOD
POWER POW/POWER
SQRT SQRT
SIN/COS SIN/COS

Character Function

SUBSTR

Character Function

SUBSTR SUBSTR

Character Function

SUBSTR SUBSTR
TRIM

Character Function

SUBSTR SUBSTR
TRIM TRIM

Character Function

SUBSTR SUBSTR
TRIM TRIM
LPAD/RPAD

Character Function

SUBSTR SUBSTR
TRIM TRIM
LPAD/RPAD LPAD/RPAD

Character Function

SUBSTR SUBSTR
TRIM TRIM
LPAD/RPAD LPAD/RPAD
LTRIM/RTRIM

Character Function

SUBSTR SUBSTR
TRIM TRIM
LPAD/RPAD LPAD/RPAD
LTRIM/RTRIM LTRIM/RTRIM

Character Function

SUBSTR SUBSTR
TRIM TRIM
LPAD/RPAD LPAD/RPAD
REPLACE

Character Function

SUBSTR SUBSTR
TRIM TRIM
LPAD/RPAD LPAD/RPAD
REPLACE REGEXP_REPLACE

NULL Function

COALESCE

NULL Function

COALESCE COALESCE

NULL Function

COALESCE COALESCE

NVL

NULL Function

COALESCE COALESCE

NVL Custom UDF

NULL Function

COALESCE COALESCE

NVL Custom UDF

NVL2

NULL Function

COALESCE COALESCE

NVL Custom UDF

NVL2 Custom UDF

Custom UDF Function
• Condition Function
• DECODE
• Null Comparison Function
• NVL / NVL2
• Type Conversion
• TO_NUMBER
• TO_CHAR
• TO_DATE

Oracle Analytic
Function

Analytic Function

Joins, WHERE, GROUP BY clauses are performed

Analytic Function


the analytic functions are performed
with the result set

Analytic Function


the analytic functions are performed
with the result set

ORDER BY clause is processed

Analytic Function
Rank salary in dept

name

dept

salary
---------------------
a

Research

100
b

Research

100
c

Sales

200
d

Sales

300
e

Research

50
f

Accounting

200
g

Accounting

300
h

Accounting

400
i

Research

10

Analytic Function

name

dept

salary
---------------------
a

Research

100
b

Research

100
c

Sales

200
d

Sales

300
e

Research

50
f

Accounting

200
g

Accounting

300
h

Accounting

400
i

Research

10

Analytic Function

Map
name

dept

salary
---------------------
a

Research

100
b

Research

100
c

Sales

200
d

Sales

300
e

Research

50

Map
f

Accounting

200
g

Accounting

300
h

Accounting

400
i

Research

10

Map

Analytic Function

a

Research

100
b

Research

100
c

Sales

Map
200

d

Sales

300
e

Research

Map
50
f

Accounting

200

g

Accounting

300
h

Accounting

Map
400
i

Research

10

Analytic Function
DISTRIBUTED BY dept
a

Research

100
b

Research

100
c

Sales

Map
200

d

Sales

300
e

Research

Map
50
f

Accounting

200

g

Accounting

300
h

Accounting

Map
400
i

Research

10

Analytic Function
DISTRIBUTED BY dept
a

Research

100
b

Research

100
c

Sales

Map
200
Reduce
d

Sales

300
e

Research

Map
50
f

Accounting

200
Reduce
g

Accounting

300
h

Accounting

Map
400
i

Research

10

Analytic Function
DISTRIBUTED BY dept

c Sales 200
Map g Accounting

300
h
d
Accounting

Sales
400
300
Reduce
f Accounting

200

Map g

Research

300
h

Research

400
e Research 300 Reduce
i Research 10

Map

Analytic Function
SORT BY dept, salary

c Sales 200
Map d Sales 300
f Accounting

200
g Accounting

300 Reduce
h Accounting

400

Map i Research 10
g

Research

300
h

Research

400

Map

Analytic Function

c Sales 200
Map d Sales 300
f Accounting

200
g Accounting

300 Reduce
h Accounting

400

Map i Research 10
g

Research

300
h

Research

400

Map

Analytic Function
RANK(dept,salary)

c Sales 200 1
Map d Sales 300 2
f Accounting

200 1
Reduce g Accounting

300 2
h Accounting

400 3

Map i Research 10 1
g

Research

300 2
Reduce e Research 300 3
h

Research

400 4

Map

Analytic Function
RANK
SELECT name,dept,salary,RANK() OVER (PARTITION BY dept
ORDER BY salary DESC) FROM emp

Analytic Function
RANK

SELECT e.name,e.dept,e.salary,RANK( e.dept,e.salary)
FROM (SELECT name, dept, salary FROM empDISTRIBUTED
BY dept SORT BY dept, salary DESC) e

Analytic Function
RANK

RANK(arg1,arg2) - Custom UDF
SELECT e.name,e.dept,e.salary,RANK( e.dept,e.salary)
FROM (SELECT name, dept, salary FROM empDISTRIBUTED
BY dept SORT BY dept, salary DESC) e

Hive Optimization
& Future Work

Tuning Parameter

• Hadoop Tunning

Tuning Parameter

• Hadoop Tunning
• mapred.job.reuse.jvm.num.task

Tuning Parameter

• Hadoop Tunning

• mapred.child.java.opts

Tuning Parameter

• Hadoop Tunning


• mapred.min.split.size / mapred.max.split.size

Tuning Parameter

• Hadoop Tunning



• dfs.block.size

Tuning Parameter

• Hadoop Tunning



• dfs.block.size

• Hive Tunning

Tuning Parameter

• Hadoop Tunning



• dfs.block.size

• Hive Tunning
• hive.input.format = CombineHiveInputFormat

UDF/UDAF

• Develop UDF to optimize number of MR jobs
• Extend GenericUDF to avoid java reﬂection
• Avoid creating new objects in UDF

Future Work
• HiveQL SQL Compliance
• HIVE-282 - IN statement for WHERE clauses

• HIVE-192 - Add TIMESTAMP column type

• HIVE-1269 - Support Date/Datetime/Time/Timestamp Primitive Types

Future Work



• Analytic Function
• HIVE-896 - Add LEAD/LAG/FIRST/LAST analytical windowing functions to Hive

• HIVE-952 - Support analytic NTILE function

Future Work



• Analytic Function
• HIVE-896 - Add LEAD/LAG/FIRST/LAST analytical windowing functions to Hive

• HIVE-952 - Support analytic NTILE function

• Optimization
• HIVE-1694 - Accelerate GROUP BY execution using indexes

• HIVE-482 - Optimize Group By + Order By with the same keys

Hive
A system for managing and querying
structured data built on top of Hadoop

Oracle 2 Hive

Hive
A system for managing and querying
structured data built on top of Hadoop

Oracle 2 Hive
data model
ANSI-SQL
built-in function / custom UDF
analytic function

SDEC2011 Replacing legacy Telco DB/DW to Hadoop and Hive

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie SDEC2011 Replacing legacy Telco DB/DW to Hadoop and Hive

Ähnlich wie SDEC2011 Replacing legacy Telco DB/DW to Hadoop and Hive (20)

Mehr von Korea Sdec

Mehr von Korea Sdec (16)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

SDEC2011 Replacing legacy Telco DB/DW to Hadoop and Hive