SampleClean: Bringing Data Cleaning into the BDAS Stack

SampleClean: Bringing Data
Cleaning into the BDAS Stack!
Sanjay Krishnan and Daniel Haas!
In Collaboration With: Juan Sanchez, Wenbo Tao, Jiannan
Wang, Tim Kraska, Michael Franklin, Tova Milo, Ken
Goldberg !

Who publishes more? !
!
!
2

Microsoft Academic Search!
!
!
Paper Id! Affiliation!
16! Computer Science Division--University of
California Berkeley CA!
101! University of California at Berkeley!
102! Department of Physics Stanford !
University California!
116! Lawrence Berkeley National Labs!
<ref>California</ref>!
3

!
!
Paper Id! Affiliation!
16! Computer Science Division--University of
California Berkeley CA!
101! University of California at Berkeley!
102! Department of Physics Stanford !
116! Lawrence Berkeley National Labs!
<ref>California</ref>!
X
4

!
!
University of California at Berkeley!
Computer Science Division!
University of California at Berkeley!
Department of Physics Stanford !
5

• Data cleaning in BDAS.!
– Problem 1. Scale!
– Problem 2. Latency!
!
• Sampling to cope with scale.!
• Asynchrony to cope with latency.!
!
Enter SampleClean!
6

Now it’s your turn!!
Be the crowd and help us decide!
!
!
7

Dirty Data is Ubiquitous!
8!
Example: Missing, incomplete, inconsistent data!

Data Cleaning is Hard!
9
Time consuming!

10
Time consuming!
Costly!

11
Time consuming!
Costly!
Domain-specific!

12
Time consuming!
Costly!
Domain-specific!

A New Data Cleaning Architecture!
Analy0cs
13
Data
Data
Cleaning

A New Data Cleaning Architecture!
Analy0cs
14
Data
Cleaning
Data

Can it Scale?!
People are slow and expensive!
Crowd
Machine
Learning
Regex
Time
15

Insight 1: Asynchrony Hides Latency!
16

Insight 2: Sampling Hides Scale!
Query !
Error!
BlinkDB!
Time!
17

Query !
Error!
Time!
Data
Error
BlinkDB!
18

Query !
Error!
Time!
Data
Error
SampleClean!
BlinkDB!
19

SampleClean Data Flow!
Dirty
Data
Dirty
Sample
Query
Clean
Sample
Data
Cleaning
20
Sampling
Asynchrony

SampleClean Data Flow!
Query
Clean
Sample
Data
Cleaning
Asynchrony
21

The SampleClean Architecture!
Data
Cleaning
Library
Issue Queries, !
Get Results!
Approximate
Asynchronous
Query
Processing
Pipelines
Clean
Sample
Declare Cleaning !
Operations!
Dirty
Sample
22

Data
Cleaning
Library
Issue Queries, !
Get Results!
Approximate
Asynchronous
Query
Processing
Pipelines
Clean
Sample
Declare Cleaning !
Operations!
Dirty
Sample
23

Approximate Query Processing!
• Estimate early results and bound with
error bars!
Query !
Error!
Time!
SampleClean: Fast and Accurate Query Processing on Dirty Data. SIGMOD 2014!
!
BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very
Large Data. EuroSys 2013!
24

25
Issue Queries, !
Get Results!
Approximate
Asynchronous
Query
Processing
Pipelines
Clean
Sample
Declare Cleaning !
Operations!
Dirty
Sample
Data
Cleaning
Library

Crowds and Machines
Work Together!
• Extensible library of data cleaning tools!
• Tools are:!
– Automated!
– Human-powered!
– Hybrid!
!
Crowd
Machine
Learning
Regex
Time
26

Active Learning and Crowds!
• Choose informative training points!
Not !
Informative!
Are these the same?!
Stanford Department of IEOR!
!
UC Berkeley Stats!
!
¢ Yes !
¤ No!
Informative!
Department of Mathematics Stanford University!
!
University of California Berkeley Department of
Mathematics!
!
¢ Yes !
¤ No!
27

Active Learning and Crowds!
• Choose informative training points!
Not !
Informative!
Stanford Department of IEOR!
!
UC Berkeley Stats!
!
¢ Yes !
¤ No!
Informative!
Department of Mathematics Stanford University!
!
University of California Berkeley Department of
Mathematics!
!
¢ Yes !
¤ No!
28

29
Data
Cleaning
Library
Issue Queries, !
Get Results!
Clean
Sample
Declare Cleaning !
Operations!
Dirty
Sample
Approximate
Asynchronous
Query
Processing
Pipelines

Putting it all together:
Asynchronous Pipelines!
• Users group data cleaning operations into
pipelines!
30

Data
Cleaning
Library
Issue Queries, !
Get Results!
Approximate
Asynchronous
Query
Processing
Pipelines
Clean
Sample
Declare Cleaning !
Operations!
Dirty
Sample
31

Great, Now What?!
• Prototype implementation complete!!
• Significant research challenges remain:!
• Crowd worker performance and quality!
• Pipeline semantics and optimization!
• Programming model and interface!
!
• Open source release targeted for next
year!
32

Summary!
• Data Cleaning is slow, costly, and
domain-specific!
• SampleClean brings data cleaning into
the BDAS stack !
• SampleClean uses asynchrony to hide
latency, and sampling to hide scale!
• SampleClean combines Algorithms,
Machines, and People, all in one system! 33

Asynchrony in Spark!
• The Spark abstraction: blocking BSP!
• So how do we achieve asynchrony?!
• Multithreaded master!
• Intermediate results materialized in
Hive!
• Standalone Finagle HTTP server for
crowd work!
!
34

SampleClean: Bringing Data Cleaning into the BDAS Stack

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (18)

Similar to SampleClean: Bringing Data Cleaning into the BDAS Stack

Similar to SampleClean: Bringing Data Cleaning into the BDAS Stack (20)

More from jeykottalam

More from jeykottalam (6)

Recently uploaded

Recently uploaded (20)

SampleClean: Bringing Data Cleaning into the BDAS Stack

Editor's Notes