SlideShare ist ein Scribd-Unternehmen logo
1 von 25
Pre-University College
Masterclass Big Data
Prof.dr.ir. Arjen P. de Vries
arjen@acm.org
Nijmegen, March 14th
, 2017
Overview
 Big Data
- Wat is het?
- Wat kan men er mee?
- Wat maakt het moeilijk?
 Streaming data!
 Practicum: zelf aan de slag
“Big Data”
 DATA: Een normaal Nederlands woord voor data is
gegevens.
 BIG: Op dit moment wordt er wereldwijd iedere seconde
30.000 GigaByte aan data gegenereerd. En dat wordt
alleen maar meer. Dus zo big is big!
 Bv. Facebook (Aug 2012):
- 2.5 billion content items shared per day (status updates + wall
posts + photos + videos + comments)
- 2.7 billion Likes per day
- 300 million photos uploaded per day
BIG Data (Opdracht 1)
 Nieuwe data:
30.000 GigaByte/s = 3x104
x109
B/s = 3x1013
B/s
 Hardeschijf: 2 TB = 2x1012
B
 Dus, na 0,07 seconden is jouw harde schijf al vol!!
Bedenk hoe groot de harde schijf is die in jouw computer zit.
Weet je dat niet? Ga er dan maar van uit dat je een harde schijf
ter beschikking hebt van 2 TB (terabyte).
Hoeveel, uitgaande van 30.000 gigabytes per seconde,
seconden (of minuten, uren of dagen) kun je dan aan data op
slaan?
BIG Data
 24 uur = 86400 seconden
 Met 3x1013
B/s is dat dan 2,6x1018
B aan data
 Met 2x1012
B per schijf is dat 1.300.000 schijven
per seconde!
 Dus zo big is big!
Bedenk hoe groot de harde schijf is die in jouw computer zit.
Weet je dat niet? Ga er dan maar van uit dat je een harde
schijf ter beschikking hebt van 2 TB (terabyte).
Hoeveel harde schijven van 2 TB heb je nodig om alle data
van een dag op te slaan?
Big Data: nieuwe mogelijkheden!
Om
Data te genereren,
Delen,
Combineren
Analyseren
.. die leiden tot nieuwe inzichten en een nieuwe manier van
redeneren.
(bron: Definitie van big data van de Nationale DenkTank
Diversiteit aan data
 Tweets!
 Alles wat er op sociale netwerken wordt geplaatst
- Facebook, Instagram, Pinterest, …
 Alles wat er aan sociale media wordt geproduceerd
- YouTube, Flickr, …
 Communicatie:
- WhatsApp berichten en andere chat services als skype,
Snapchat, …
- Email
 Locatie-informatie
- De plek waar we ons bevinden, via smartphone GPS bv.
 Wat we kopen, bv. Bonuskaart, kortingsbonnen, …
en ga zo nog maar even door; denk bijvoorbeeld ook aan
het Internet of Things (Bv., de verwarmingsketel,
elektriceitsmeters, etc.)
Diversiteit aan data (Opdracht 2)
 Doe jij ook mee met het creëren van data? Ja, daar kun je
niet om heen. Denk er maar eens over na.
 Hoe creëer jij data?
 Kun jij je data voorstellen die jij zelf gecreëerd hebt maar
waarvan je eigenlijk niet wilt dat anderen daar iets mee
gaan doen?
 Kun jij je ook data voorstellen die, als dat op het internet
komt, voor jou nuttig kan zijn?
Herken eigennamen
Ordenen zoekresultaten
Voorspel wat jij wilt vinden
Suggesties andere vragen
Spelfouten corrigeren
Wat zou de gebruiker willen?
Orden de “verticals”
Suggesties zoekvragen
 August 4, 2006: Logs voor academici
 3 maanden, 650 duizend gebruikers, 20 miljoen zoekvragen
 Anonieme User IDs
 August 7, 2006: AOL haalde de data weg, maar… internet vergeet
nooit!
 August 9, 2006: New York Times identificeert Thelma Arnold
 “A Face Is Exposed for AOL Searcher No. 4417749”
 Zoekvragen in een kleine gemeenschap, Lilburn, GA (pop. 11k)
 Zoekvragen naar specifieke namen (Jarrett Arnold)
 NYT journalist benadert alle 14 mensen in Lilburn met achternaam
Arnold
 Thelma Arnold bevestigt haar zoekvragen
 August 21, 2006: 2 AOL werknemers ontslagen, CTO zelf weg
 September, 2006: “Class action rechtzaak” ingediend tegen AOL
AnonID Query QueryTime ItemRank ClickURL
---------- --------- --------------- ------------- ------------
1234567 uw cse 2006-04-04 18:18:18 1 http://www.cs.washington.edu/
1234567 uw admissions process 2006-04-04 18:18:18 3 http://admit.washington.edu/admission
1234567 computer science hci 2006-04-24 09:19:32
1234567 computer science hci 2006-04-24 09:20:04 2 http://www.hcii.cmu.edu
1234567 seattle restaurants 2006-04-24 09:25:50 2 http://seattletimes.nwsource.com/rests
1234567 perlman montreal 2006-04-24 10:15:14 4
http://oldwww.acm.org/perlman/guide.html
1234567 uw admissions notification 2006-05-20 13:13:13
…
AOL Search Dataset
Tnx Jamie Teevan
AOL Search Dataset
 Anonieme IDs geen garantie voor anonimiteit
 Logs bevatten direct identificerende informatie:
 Namen, telefoonnummers, credit cards, BSNs
 Tevens indirect identificerende informatie:
 Thelma’s vragen uit het NYT artikel
 Geboortedatum, geslacht en postcode is voldoende om
87% van de Amerikanen uniek te identificeren!
Tnx Jamie Teevan
Big Data
 De 3 Vs van Big Data:
- Volume
We meten steeds meer, en wat we aan data verkrijgen groeit
sneller en sneller
- Velocity
Data komt sneller binnen dan we het kunnen analyseren –
aardbeving waarschuwing alleen nuttig als het voor de beving
is uitgerekend!
- Variety
Data is steeds vaker ongestructureerd, in de vorm van tekst,
beeld of video.
How much data?
9 PB of user data +
>50 TB/day (11/2011)
processes 20 PB a day (2008)
36 PB of user data +
80-90 TB/day (6/2010)
Wayback Machine: 3 PB +
100 TB/month (3/2009)
LHC: ~15 PB a year
(at full capacity)
LSST: 6-10 PB a year (~2015)
150 PB on 50k+ servers
running 15k apps
S3: 449B objects, peak 290k request/second
(7/2011)
Big Data in NL
 Aankopen bij bol.com
 Bestemmingen van Booking.com op maat
 Advertenties real-time verkopen, bv. bij Sanoma
 Nieuwsbrieven Blendle.nl
 Kinderzoekmachine WizeNoze.com
Etc. etc.
Ook in de wetenschap!
(Banko and Brill, ACL 2001)
(Brants et al., EMNLP 2007)
How do we get here if we’re not Google?
Opslag van data (Opdracht 3)
 Waarom kunnen we niet gewoon Excel gebruiken voor het
opslaan van dit soort data?
 Het is teveel, en daarom past het niet in jouw spreadsheet
 Excel macro’s zouden niet snel genoeg werken
 …
@CWI – 2011
Source: Google
Data Center (is the Computer)
Source: NY Times (6/14/2006), http://www.nytimes.com/2006/06/14/technology/14search.html
A Prototype “Big Data Analysis” Task
 Bekijk elk data-item
 Extraheer “iets interessants”
 Aggregeer de tussenresultaten
- Hiervoor moet je gewoonlijk alle data sorteren en herverdelen
over het datacentrum!
 Genereer de gevraagde analyse-resultaten
Map
Reduce
(Dean and Ghemawat, OSDI 2004)
Streaming Big Data
 Uitdaging:
Wat als nieuwe data maar blijft binnenkomen!
-We willen geen kopie van data maken
-Data kan niet opgeslagen worden, b.v., in de kleine computertjes
die het Internet of Things bevolken
 Kunnen we die zg. “streaming data” dan toch analyseren?
Praktische opdracht (gemiddelde):
 Een bedrijf wil uit hun verkoopcijfers weten wat het
gemiddeld aantal pakketjes per bestelling is.
 Eerst een klein voorbeeldje uitwerken:
1) Gemiddelde van: 1,3,6,1,4?
2) Daar komt nu 8 bij, wat is nu het gemiddelde?
3) Hoe zou je de gemiddelde uitrekenen als je weet dat:
gemiddelde tot nu toe is 5
het 6e getal dat er bij komt gelijk is aan 8
.. En dit kun je telkens bij grotere datasets uitrekenen zonder
steeds de hele rij getallen weer op te tellen en te delen
Praktische opdracht (mediaan):
Het gemiddelde is (te) gevoelig voor uitschieters, daarom weten
we liever de mediaan.
Bepaal de mediaan van 1, 3, 4, 6, 1
Hoe heb je dat gedaan?
Kan het ook zonder te sorteren?
We willen immers niet alle data opslaan!
Streaming Big Data
 We gaan nu ZIEN en ERVAREN hoe we tools kunnen
inzetten om dit toch voor elkaar te krijgen uit tweets.
 Tweets zijn immers:
- Wereldwijd heel veel
- Er stromen telkens nieuwe van binnen
- Variteit aan data (tekst, links, foto’s , video’s)
 Hands-on session!
- Tutorial: https://rubigdata.github.io/course/puc/
- Code: https://github.com/rubigdata/puc/

Weitere ähnliche Inhalte

Ähnlich wie Masterclass Big Data (leerlingen)

Software Engineering College 4 - exploring data
Software Engineering College 4 - exploring dataSoftware Engineering College 4 - exploring data
Software Engineering College 4 - exploring data
Jurjen Helmus
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
Jasmina Tepic MA
 
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina
 

Ähnlich wie Masterclass Big Data (leerlingen) (20)

Software Engineering College 4 - exploring data
Software Engineering College 4 - exploring dataSoftware Engineering College 4 - exploring data
Software Engineering College 4 - exploring data
 
De Bibliotheek zichtbaar in de wereld van de gebruiker : Of Over hoe gebruik...
De Bibliotheek zichtbaar in de wereld van de gebruiker  : Of Over hoe gebruik...De Bibliotheek zichtbaar in de wereld van de gebruiker  : Of Over hoe gebruik...
De Bibliotheek zichtbaar in de wereld van de gebruiker : Of Over hoe gebruik...
 
It Trends Ede 20090130
It Trends Ede 20090130It Trends Ede 20090130
It Trends Ede 20090130
 
From Big Data, fast computers and complex models towards learning machines
From Big Data, fast computers and complex models towards learning machinesFrom Big Data, fast computers and complex models towards learning machines
From Big Data, fast computers and complex models towards learning machines
 
IT trends with focus on connecting
IT trends with focus on connectingIT trends with focus on connecting
IT trends with focus on connecting
 
Open Data Publishing
Open Data PublishingOpen Data Publishing
Open Data Publishing
 
Big Data en Open Data
Big Data en Open DataBig Data en Open Data
Big Data en Open Data
 
Beverwedstrijd Big Data (klas 3/4/5/6)
Beverwedstrijd Big Data (klas 3/4/5/6) Beverwedstrijd Big Data (klas 3/4/5/6)
Beverwedstrijd Big Data (klas 3/4/5/6)
 
Marketeers van Firewall tot in de Wolken
Marketeers van Firewall tot in de WolkenMarketeers van Firewall tot in de Wolken
Marketeers van Firewall tot in de Wolken
 
Laat informatie naar u toekomen
Laat informatie naar u toekomenLaat informatie naar u toekomen
Laat informatie naar u toekomen
 
Worden machinesslimmerdanmensen
Worden machinesslimmerdanmensenWorden machinesslimmerdanmensen
Worden machinesslimmerdanmensen
 
Wat is big data en hoe bemeester je het?
Wat is big data en hoe bemeester je het?Wat is big data en hoe bemeester je het?
Wat is big data en hoe bemeester je het?
 
Inleiding Geomarkt
Inleiding  GeomarktInleiding  Geomarkt
Inleiding Geomarkt
 
Laat nieuwe informatie naar u toe komen…
Laat nieuwe informatie naar u toe komen…Laat nieuwe informatie naar u toe komen…
Laat nieuwe informatie naar u toe komen…
 
Opdracht 1 Het big data landschap
Opdracht 1 Het big data landschap Opdracht 1 Het big data landschap
Opdracht 1 Het big data landschap
 
Data Pioneers - Remco Wilting (VODW) - Mythes en feiten rondom big data
Data Pioneers -  Remco Wilting (VODW) - Mythes en feiten rondom big data Data Pioneers -  Remco Wilting (VODW) - Mythes en feiten rondom big data
Data Pioneers - Remco Wilting (VODW) - Mythes en feiten rondom big data
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
 
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
 
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
 
Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)
 

Mehr von Arjen de Vries

The personal search engine
The personal search engineThe personal search engine
The personal search engine
Arjen de Vries
 
ESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social MediaESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social Media
Arjen de Vries
 
Looking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterpriseLooking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterprise
Arjen de Vries
 

Mehr von Arjen de Vries (20)

Doing a PhD @ DOSSIER
Doing a PhD @ DOSSIERDoing a PhD @ DOSSIER
Doing a PhD @ DOSSIER
 
Web Archives and the dream of the Personal Search Engine
Web Archives and the dream of the Personal Search EngineWeb Archives and the dream of the Personal Search Engine
Web Archives and the dream of the Personal Search Engine
 
Information Retrieval and Social Media
Information Retrieval and Social MediaInformation Retrieval and Social Media
Information Retrieval and Social Media
 
Information Retrieval intro TMM
Information Retrieval intro TMMInformation Retrieval intro TMM
Information Retrieval intro TMM
 
ACM SIGIR 2017 - Opening - PC Chairs
ACM SIGIR 2017 - Opening - PC ChairsACM SIGIR 2017 - Opening - PC Chairs
ACM SIGIR 2017 - Opening - PC Chairs
 
Data Science Master Specialisation
Data Science Master SpecialisationData Science Master Specialisation
Data Science Master Specialisation
 
PUC Masterclass Big Data
PUC Masterclass Big DataPUC Masterclass Big Data
PUC Masterclass Big Data
 
Bigdata processing with Spark - part II
Bigdata processing with Spark - part IIBigdata processing with Spark - part II
Bigdata processing with Spark - part II
 
Bigdata processing with Spark
Bigdata processing with SparkBigdata processing with Spark
Bigdata processing with Spark
 
TREC 2016: Looking Forward Panel
TREC 2016: Looking Forward PanelTREC 2016: Looking Forward Panel
TREC 2016: Looking Forward Panel
 
The personal search engine
The personal search engineThe personal search engine
The personal search engine
 
Models for Information Retrieval and Recommendation
Models for Information Retrieval and RecommendationModels for Information Retrieval and Recommendation
Models for Information Retrieval and Recommendation
 
Better Contextual Suggestions by Applying Domain Knowledge
Better Contextual Suggestions by Applying Domain KnowledgeBetter Contextual Suggestions by Applying Domain Knowledge
Better Contextual Suggestions by Applying Domain Knowledge
 
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
 
ESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social MediaESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social Media
 
Looking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterpriseLooking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterprise
 
Recommendation and Information Retrieval: Two Sides of the Same Coin?
Recommendation and Information Retrieval: Two Sides of the Same Coin?Recommendation and Information Retrieval: Two Sides of the Same Coin?
Recommendation and Information Retrieval: Two Sides of the Same Coin?
 
Searching Political Data by Strategy
Searching Political Data by StrategySearching Political Data by Strategy
Searching Political Data by Strategy
 
How to Search Annotated Text by Strategy?
How to Search Annotated Text by Strategy?How to Search Annotated Text by Strategy?
How to Search Annotated Text by Strategy?
 
How to build the next 1000 search engines?!
How to build the next 1000 search engines?! How to build the next 1000 search engines?!
How to build the next 1000 search engines?!
 

Masterclass Big Data (leerlingen)

  • 1. Pre-University College Masterclass Big Data Prof.dr.ir. Arjen P. de Vries arjen@acm.org Nijmegen, March 14th , 2017
  • 2. Overview  Big Data - Wat is het? - Wat kan men er mee? - Wat maakt het moeilijk?  Streaming data!  Practicum: zelf aan de slag
  • 3. “Big Data”  DATA: Een normaal Nederlands woord voor data is gegevens.  BIG: Op dit moment wordt er wereldwijd iedere seconde 30.000 GigaByte aan data gegenereerd. En dat wordt alleen maar meer. Dus zo big is big!  Bv. Facebook (Aug 2012): - 2.5 billion content items shared per day (status updates + wall posts + photos + videos + comments) - 2.7 billion Likes per day - 300 million photos uploaded per day
  • 4. BIG Data (Opdracht 1)  Nieuwe data: 30.000 GigaByte/s = 3x104 x109 B/s = 3x1013 B/s  Hardeschijf: 2 TB = 2x1012 B  Dus, na 0,07 seconden is jouw harde schijf al vol!! Bedenk hoe groot de harde schijf is die in jouw computer zit. Weet je dat niet? Ga er dan maar van uit dat je een harde schijf ter beschikking hebt van 2 TB (terabyte). Hoeveel, uitgaande van 30.000 gigabytes per seconde, seconden (of minuten, uren of dagen) kun je dan aan data op slaan?
  • 5. BIG Data  24 uur = 86400 seconden  Met 3x1013 B/s is dat dan 2,6x1018 B aan data  Met 2x1012 B per schijf is dat 1.300.000 schijven per seconde!  Dus zo big is big! Bedenk hoe groot de harde schijf is die in jouw computer zit. Weet je dat niet? Ga er dan maar van uit dat je een harde schijf ter beschikking hebt van 2 TB (terabyte). Hoeveel harde schijven van 2 TB heb je nodig om alle data van een dag op te slaan?
  • 6. Big Data: nieuwe mogelijkheden! Om Data te genereren, Delen, Combineren Analyseren .. die leiden tot nieuwe inzichten en een nieuwe manier van redeneren. (bron: Definitie van big data van de Nationale DenkTank
  • 7. Diversiteit aan data  Tweets!  Alles wat er op sociale netwerken wordt geplaatst - Facebook, Instagram, Pinterest, …  Alles wat er aan sociale media wordt geproduceerd - YouTube, Flickr, …  Communicatie: - WhatsApp berichten en andere chat services als skype, Snapchat, … - Email  Locatie-informatie - De plek waar we ons bevinden, via smartphone GPS bv.  Wat we kopen, bv. Bonuskaart, kortingsbonnen, … en ga zo nog maar even door; denk bijvoorbeeld ook aan het Internet of Things (Bv., de verwarmingsketel, elektriceitsmeters, etc.)
  • 8. Diversiteit aan data (Opdracht 2)  Doe jij ook mee met het creëren van data? Ja, daar kun je niet om heen. Denk er maar eens over na.  Hoe creëer jij data?  Kun jij je data voorstellen die jij zelf gecreëerd hebt maar waarvan je eigenlijk niet wilt dat anderen daar iets mee gaan doen?  Kun jij je ook data voorstellen die, als dat op het internet komt, voor jou nuttig kan zijn?
  • 9. Herken eigennamen Ordenen zoekresultaten Voorspel wat jij wilt vinden Suggesties andere vragen
  • 10. Spelfouten corrigeren Wat zou de gebruiker willen? Orden de “verticals” Suggesties zoekvragen
  • 11.  August 4, 2006: Logs voor academici  3 maanden, 650 duizend gebruikers, 20 miljoen zoekvragen  Anonieme User IDs  August 7, 2006: AOL haalde de data weg, maar… internet vergeet nooit!  August 9, 2006: New York Times identificeert Thelma Arnold  “A Face Is Exposed for AOL Searcher No. 4417749”  Zoekvragen in een kleine gemeenschap, Lilburn, GA (pop. 11k)  Zoekvragen naar specifieke namen (Jarrett Arnold)  NYT journalist benadert alle 14 mensen in Lilburn met achternaam Arnold  Thelma Arnold bevestigt haar zoekvragen  August 21, 2006: 2 AOL werknemers ontslagen, CTO zelf weg  September, 2006: “Class action rechtzaak” ingediend tegen AOL AnonID Query QueryTime ItemRank ClickURL ---------- --------- --------------- ------------- ------------ 1234567 uw cse 2006-04-04 18:18:18 1 http://www.cs.washington.edu/ 1234567 uw admissions process 2006-04-04 18:18:18 3 http://admit.washington.edu/admission 1234567 computer science hci 2006-04-24 09:19:32 1234567 computer science hci 2006-04-24 09:20:04 2 http://www.hcii.cmu.edu 1234567 seattle restaurants 2006-04-24 09:25:50 2 http://seattletimes.nwsource.com/rests 1234567 perlman montreal 2006-04-24 10:15:14 4 http://oldwww.acm.org/perlman/guide.html 1234567 uw admissions notification 2006-05-20 13:13:13 … AOL Search Dataset Tnx Jamie Teevan
  • 12. AOL Search Dataset  Anonieme IDs geen garantie voor anonimiteit  Logs bevatten direct identificerende informatie:  Namen, telefoonnummers, credit cards, BSNs  Tevens indirect identificerende informatie:  Thelma’s vragen uit het NYT artikel  Geboortedatum, geslacht en postcode is voldoende om 87% van de Amerikanen uniek te identificeren! Tnx Jamie Teevan
  • 13. Big Data  De 3 Vs van Big Data: - Volume We meten steeds meer, en wat we aan data verkrijgen groeit sneller en sneller - Velocity Data komt sneller binnen dan we het kunnen analyseren – aardbeving waarschuwing alleen nuttig als het voor de beving is uitgerekend! - Variety Data is steeds vaker ongestructureerd, in de vorm van tekst, beeld of video.
  • 14. How much data? 9 PB of user data + >50 TB/day (11/2011) processes 20 PB a day (2008) 36 PB of user data + 80-90 TB/day (6/2010) Wayback Machine: 3 PB + 100 TB/month (3/2009) LHC: ~15 PB a year (at full capacity) LSST: 6-10 PB a year (~2015) 150 PB on 50k+ servers running 15k apps S3: 449B objects, peak 290k request/second (7/2011)
  • 15. Big Data in NL  Aankopen bij bol.com  Bestemmingen van Booking.com op maat  Advertenties real-time verkopen, bv. bij Sanoma  Nieuwsbrieven Blendle.nl  Kinderzoekmachine WizeNoze.com Etc. etc.
  • 16. Ook in de wetenschap! (Banko and Brill, ACL 2001) (Brants et al., EMNLP 2007) How do we get here if we’re not Google?
  • 17. Opslag van data (Opdracht 3)  Waarom kunnen we niet gewoon Excel gebruiken voor het opslaan van dit soort data?  Het is teveel, en daarom past het niet in jouw spreadsheet  Excel macro’s zouden niet snel genoeg werken  …
  • 19. Source: Google Data Center (is the Computer)
  • 20. Source: NY Times (6/14/2006), http://www.nytimes.com/2006/06/14/technology/14search.html
  • 21. A Prototype “Big Data Analysis” Task  Bekijk elk data-item  Extraheer “iets interessants”  Aggregeer de tussenresultaten - Hiervoor moet je gewoonlijk alle data sorteren en herverdelen over het datacentrum!  Genereer de gevraagde analyse-resultaten Map Reduce (Dean and Ghemawat, OSDI 2004)
  • 22. Streaming Big Data  Uitdaging: Wat als nieuwe data maar blijft binnenkomen! -We willen geen kopie van data maken -Data kan niet opgeslagen worden, b.v., in de kleine computertjes die het Internet of Things bevolken  Kunnen we die zg. “streaming data” dan toch analyseren?
  • 23. Praktische opdracht (gemiddelde):  Een bedrijf wil uit hun verkoopcijfers weten wat het gemiddeld aantal pakketjes per bestelling is.  Eerst een klein voorbeeldje uitwerken: 1) Gemiddelde van: 1,3,6,1,4? 2) Daar komt nu 8 bij, wat is nu het gemiddelde? 3) Hoe zou je de gemiddelde uitrekenen als je weet dat: gemiddelde tot nu toe is 5 het 6e getal dat er bij komt gelijk is aan 8 .. En dit kun je telkens bij grotere datasets uitrekenen zonder steeds de hele rij getallen weer op te tellen en te delen
  • 24. Praktische opdracht (mediaan): Het gemiddelde is (te) gevoelig voor uitschieters, daarom weten we liever de mediaan. Bepaal de mediaan van 1, 3, 4, 6, 1 Hoe heb je dat gedaan? Kan het ook zonder te sorteren? We willen immers niet alle data opslaan!
  • 25. Streaming Big Data  We gaan nu ZIEN en ERVAREN hoe we tools kunnen inzetten om dit toch voor elkaar te krijgen uit tweets.  Tweets zijn immers: - Wereldwijd heel veel - Er stromen telkens nieuwe van binnen - Variteit aan data (tekst, links, foto’s , video’s)  Hands-on session! - Tutorial: https://rubigdata.github.io/course/puc/ - Code: https://github.com/rubigdata/puc/

Hinweis der Redaktion

  1. Released at SIGIR 2006 Thelma Arnold, a 62 year old woman from Lilburn, GA Lawsuit asking for $5000/user http://en.wikipedia.org/wiki/AOL_search_data_scandal http://www.nytimes.com/2006/08/09/technology/09aol.html?_r=1 Basic Collection Statistics Dates: 01 March, 2006 - 31 May, 2006 Normalized queries: 36,389,567 lines of data 21,011,340 instances of new queries (w/ or w/o click-through) 7,887,022 requests for "next page" of results 19,442,629 user click-through events 16,946,938 queries w/o user click-through 10,154,742 unique (normalized) queries 657,426 unique user ID's Please reference the following publication when using this collection: G. Pass, A. Chowdhury, C. Torgeson. A Picture of Search. The First International Conference on Scalable Information Systems, Hong Kong, June 2006.
  2. User 927: Inspired theatrical production by Katharine Clark Gray User 711391: Middle-aged woman, has an affair, ends it, tries to save her marriage.