Masterclass Big Data (leerlingen)

Pre-University College
Masterclass Big Data
Prof.dr.ir. Arjen P. de Vries
arjen@acm.org
Nijmegen, March 14th
, 2017

Overview
 Big Data
- Wat is het?
- Wat kan men er mee?
- Wat maakt het moeilijk?
 Streaming data!
 Practicum: zelf aan de slag

“Big Data”
 DATA: Een normaal Nederlands woord voor data is
gegevens.
 BIG: Op dit moment wordt er wereldwijd iedere seconde
30.000 GigaByte aan data gegenereerd. En dat wordt
alleen maar meer. Dus zo big is big!
 Bv. Facebook (Aug 2012):
- 2.5 billion content items shared per day (status updates + wall
posts + photos + videos + comments)
- 2.7 billion Likes per day
- 300 million photos uploaded per day

BIG Data (Opdracht 1)
 Nieuwe data:
30.000 GigaByte/s = 3x104
x109
B/s = 3x1013
B/s
 Hardeschijf: 2 TB = 2x1012
B
 Dus, na 0,07 seconden is jouw harde schijf al vol!!
Bedenk hoe groot de harde schijf is die in jouw computer zit.
Weet je dat niet? Ga er dan maar van uit dat je een harde schijf
ter beschikking hebt van 2 TB (terabyte).
Hoeveel, uitgaande van 30.000 gigabytes per seconde,
seconden (of minuten, uren of dagen) kun je dan aan data op
slaan?

BIG Data
 24 uur = 86400 seconden
 Met 3x1013
B/s is dat dan 2,6x1018
B aan data
 Met 2x1012
B per schijf is dat 1.300.000 schijven
per seconde!
 Dus zo big is big!
Bedenk hoe groot de harde schijf is die in jouw computer zit.
Weet je dat niet? Ga er dan maar van uit dat je een harde
schijf ter beschikking hebt van 2 TB (terabyte).
Hoeveel harde schijven van 2 TB heb je nodig om alle data
van een dag op te slaan?

Big Data: nieuwe mogelijkheden!
Om
Data te genereren,
Delen,
Combineren
Analyseren
.. die leiden tot nieuwe inzichten en een nieuwe manier van
redeneren.
(bron: Definitie van big data van de Nationale DenkTank

Diversiteit aan data
 Tweets!
 Alles wat er op sociale netwerken wordt geplaatst
- Facebook, Instagram, Pinterest, …
 Alles wat er aan sociale media wordt geproduceerd
- YouTube, Flickr, …
 Communicatie:
- WhatsApp berichten en andere chat services als skype,
Snapchat, …
- Email
 Locatie-informatie
- De plek waar we ons bevinden, via smartphone GPS bv.
 Wat we kopen, bv. Bonuskaart, kortingsbonnen, …
en ga zo nog maar even door; denk bijvoorbeeld ook aan
het Internet of Things (Bv., de verwarmingsketel,
elektriceitsmeters, etc.)

Diversiteit aan data (Opdracht 2)
 Doe jij ook mee met het creëren van data? Ja, daar kun je
niet om heen. Denk er maar eens over na.
 Hoe creëer jij data?
 Kun jij je data voorstellen die jij zelf gecreëerd hebt maar
waarvan je eigenlijk niet wilt dat anderen daar iets mee
gaan doen?
 Kun jij je ook data voorstellen die, als dat op het internet
komt, voor jou nuttig kan zijn?

Herken eigennamen
Ordenen zoekresultaten
Voorspel wat jij wilt vinden
Suggesties andere vragen

Spelfouten corrigeren
Wat zou de gebruiker willen?
Orden de “verticals”
Suggesties zoekvragen

 August 4, 2006: Logs voor academici
 3 maanden, 650 duizend gebruikers, 20 miljoen zoekvragen
 Anonieme User IDs
 August 7, 2006: AOL haalde de data weg, maar… internet vergeet
nooit!
 August 9, 2006: New York Times identificeert Thelma Arnold
 “A Face Is Exposed for AOL Searcher No. 4417749”
 Zoekvragen in een kleine gemeenschap, Lilburn, GA (pop. 11k)
 Zoekvragen naar specifieke namen (Jarrett Arnold)
 NYT journalist benadert alle 14 mensen in Lilburn met achternaam
Arnold
 Thelma Arnold bevestigt haar zoekvragen
 August 21, 2006: 2 AOL werknemers ontslagen, CTO zelf weg
 September, 2006: “Class action rechtzaak” ingediend tegen AOL
AnonID Query QueryTime ItemRank ClickURL
---------- --------- --------------- ------------- ------------
1234567 uw cse 2006-04-04 18:18:18 1 http://www.cs.washington.edu/
1234567 uw admissions process 2006-04-04 18:18:18 3 http://admit.washington.edu/admission
1234567 computer science hci 2006-04-24 09:19:32
1234567 computer science hci 2006-04-24 09:20:04 2 http://www.hcii.cmu.edu
1234567 seattle restaurants 2006-04-24 09:25:50 2 http://seattletimes.nwsource.com/rests
1234567 perlman montreal 2006-04-24 10:15:14 4
http://oldwww.acm.org/perlman/guide.html
1234567 uw admissions notification 2006-05-20 13:13:13
…
AOL Search Dataset
Tnx Jamie Teevan

AOL Search Dataset
 Anonieme IDs geen garantie voor anonimiteit
 Logs bevatten direct identificerende informatie:
 Namen, telefoonnummers, credit cards, BSNs
 Tevens indirect identificerende informatie:
 Thelma’s vragen uit het NYT artikel
 Geboortedatum, geslacht en postcode is voldoende om
87% van de Amerikanen uniek te identificeren!
Tnx Jamie Teevan

Big Data
 De 3 Vs van Big Data:
- Volume
We meten steeds meer, en wat we aan data verkrijgen groeit
sneller en sneller
- Velocity
Data komt sneller binnen dan we het kunnen analyseren –
aardbeving waarschuwing alleen nuttig als het voor de beving
is uitgerekend!
- Variety
Data is steeds vaker ongestructureerd, in de vorm van tekst,
beeld of video.

How much data?
9 PB of user data +
>50 TB/day (11/2011)
processes 20 PB a day (2008)
36 PB of user data +
80-90 TB/day (6/2010)
Wayback Machine: 3 PB +
100 TB/month (3/2009)
LHC: ~15 PB a year
(at full capacity)
LSST: 6-10 PB a year (~2015)
150 PB on 50k+ servers
running 15k apps
S3: 449B objects, peak 290k request/second
(7/2011)

Big Data in NL
 Aankopen bij bol.com
 Bestemmingen van Booking.com op maat
 Advertenties real-time verkopen, bv. bij Sanoma
 Nieuwsbrieven Blendle.nl
 Kinderzoekmachine WizeNoze.com
Etc. etc.

Ook in de wetenschap!
(Banko and Brill, ACL 2001)
(Brants et al., EMNLP 2007)
How do we get here if we’re not Google?

Opslag van data (Opdracht 3)
 Waarom kunnen we niet gewoon Excel gebruiken voor het
opslaan van dit soort data?
 Het is teveel, en daarom past het niet in jouw spreadsheet
 Excel macro’s zouden niet snel genoeg werken
 …

Source: Google
Data Center (is the Computer)

Source: NY Times (6/14/2006), http://www.nytimes.com/2006/06/14/technology/14search.html

A Prototype “Big Data Analysis” Task
 Bekijk elk data-item
 Extraheer “iets interessants”
 Aggregeer de tussenresultaten
- Hiervoor moet je gewoonlijk alle data sorteren en herverdelen
over het datacentrum!
 Genereer de gevraagde analyse-resultaten
Map
Reduce
(Dean and Ghemawat, OSDI 2004)

Streaming Big Data
 Uitdaging:
Wat als nieuwe data maar blijft binnenkomen!
-We willen geen kopie van data maken
-Data kan niet opgeslagen worden, b.v., in de kleine computertjes
die het Internet of Things bevolken
 Kunnen we die zg. “streaming data” dan toch analyseren?

Praktische opdracht (gemiddelde):
 Een bedrijf wil uit hun verkoopcijfers weten wat het
gemiddeld aantal pakketjes per bestelling is.
 Eerst een klein voorbeeldje uitwerken:
1) Gemiddelde van: 1,3,6,1,4?
2) Daar komt nu 8 bij, wat is nu het gemiddelde?
3) Hoe zou je de gemiddelde uitrekenen als je weet dat:
gemiddelde tot nu toe is 5
het 6e getal dat er bij komt gelijk is aan 8
.. En dit kun je telkens bij grotere datasets uitrekenen zonder
steeds de hele rij getallen weer op te tellen en te delen

Praktische opdracht (mediaan):
Het gemiddelde is (te) gevoelig voor uitschieters, daarom weten
we liever de mediaan.
Bepaal de mediaan van 1, 3, 4, 6, 1
Hoe heb je dat gedaan?
Kan het ook zonder te sorteren?
We willen immers niet alle data opslaan!

Streaming Big Data
 We gaan nu ZIEN en ERVAREN hoe we tools kunnen
inzetten om dit toch voor elkaar te krijgen uit tweets.
 Tweets zijn immers:
- Wereldwijd heel veel
- Er stromen telkens nieuwe van binnen
- Variteit aan data (tekst, links, foto’s , video’s)
 Hands-on session!
- Tutorial: https://rubigdata.github.io/course/puc/
- Code: https://github.com/rubigdata/puc/

Masterclass Big Data (leerlingen)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Masterclass Big Data (leerlingen)

Ähnlich wie Masterclass Big Data (leerlingen) (20)

Mehr von Arjen de Vries

Mehr von Arjen de Vries (20)

Masterclass Big Data (leerlingen)

Hinweis der Redaktion