SlideShare ist ein Scribd-Unternehmen logo
BIG DATA BASICS
NICHT NUR AUF DIE GRÖSSE KOMMT ES AN.
VOLUME
Use Case: LHC / CERN

Use Case: LHC / CERN

‣

27-km-Ring bei Genf,
100 m unter der Erde

‣

600 Millionen ProtonenKollisionen pro Sekunde

‣

Aufgezeichnet von Detektoren
mit Millionen von Channels

‣

1 PB generierte Daten
pro Sekunde

‣

25 PB gespeicherte Daten
pro Jahr

Illustration: CERN
Wie kann man mit diesem Daten-Volumen umgehen?

Use Case: LHC / CERN

‣

Wie speichern?

‣

Wie übertragen?

‣

Wie verarbeiten?

‣

Wie etwas finden?

Illustration: CERN
Teile und (be)herrsche!

Use Case: LHC / CERN

WLCG
(World Wide LHC Computing Grid)

‣

‣
‣

170 Sites weltweit
‣ 4.000 – 65.000 Cores
‣ 2 GB RAM pro Core
‣ 1 – 30 PB storage
1,5 Millionen Jobs pro Tag
Zugriff in Echtzeit für 8.000 Physiker
VARIETY
Was wird aus Fernsehen?

Was wird aus Fernsehen?
„Online“ wird integriert ...
... und es wird interaktiv.
Use Case: TV und Social Media

„Wer wird in der nächsten
Woche vorne sein?”

„In order to win
you need to tune in …“

Gamification & CRM

#GNTM ist in aller Munde …

Social Media

ProSieben Connect

Echte Fans möchten
mehr wissen …

Backstage Content
Eine andere Art von Daten

Strukturierte Informationen

Unstrukturierte Informationen

Semi-strukturierte Informationen
VELOCITY
Use Case: Realtime Bidding
‣
‣
‣

weiblich
31 bis 40 Jahre alt
...
Was würden Sie für
eine exklusive Anzeige
auf der Seite
bezahlen, die sie
gerade betrachtet?

Sie haben 300 Milli-Sekunden
Zeit für Ihre Antwort!
VIELEN DANK! 
WIR SEHEN UNS AN UNSEREM INFOPOINT …

Weitere ähnliche Inhalte

Mehr von inovex GmbH

lldb – Debugger auf Abwegen
lldb – Debugger auf Abwegenlldb – Debugger auf Abwegen
lldb – Debugger auf Abwegen
inovex GmbH
 
Are you sure about that?! Uncertainty Quantification in AI
Are you sure about that?! Uncertainty Quantification in AIAre you sure about that?! Uncertainty Quantification in AI
Are you sure about that?! Uncertainty Quantification in AI
inovex GmbH
 
Why natural language is next step in the AI evolution
Why natural language is next step in the AI evolutionWhy natural language is next step in the AI evolution
Why natural language is next step in the AI evolution
inovex GmbH
 
WWDC 2019 Recap
WWDC 2019 RecapWWDC 2019 Recap
WWDC 2019 Recap
inovex GmbH
 
Network Policies
Network PoliciesNetwork Policies
Network Policies
inovex GmbH
 
Interpretable Machine Learning
Interpretable Machine LearningInterpretable Machine Learning
Interpretable Machine Learning
inovex GmbH
 
Jenkins X – CI/CD in wolkigen Umgebungen
Jenkins X – CI/CD in wolkigen UmgebungenJenkins X – CI/CD in wolkigen Umgebungen
Jenkins X – CI/CD in wolkigen Umgebungen
inovex GmbH
 
AI auf Edge-Geraeten
AI auf Edge-GeraetenAI auf Edge-Geraeten
AI auf Edge-Geraeten
inovex GmbH
 
Prometheus on Kubernetes
Prometheus on KubernetesPrometheus on Kubernetes
Prometheus on Kubernetes
inovex GmbH
 
Deep Learning for Recommender Systems
Deep Learning for Recommender SystemsDeep Learning for Recommender Systems
Deep Learning for Recommender Systems
inovex GmbH
 
Azure IoT Edge
Azure IoT EdgeAzure IoT Edge
Azure IoT Edge
inovex GmbH
 
Representation Learning von Zeitreihen
Representation Learning von ZeitreihenRepresentation Learning von Zeitreihen
Representation Learning von Zeitreihen
inovex GmbH
 
Talk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale AssistentenTalk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale Assistenten
inovex GmbH
 
Künstlich intelligent?
Künstlich intelligent?Künstlich intelligent?
Künstlich intelligent?
inovex GmbH
 
Dev + Ops = Go
Dev + Ops = GoDev + Ops = Go
Dev + Ops = Go
inovex GmbH
 
Das Android Open Source Project
Das Android Open Source ProjectDas Android Open Source Project
Das Android Open Source Project
inovex GmbH
 
Machine Learning Interpretability
Machine Learning InterpretabilityMachine Learning Interpretability
Machine Learning Interpretability
inovex GmbH
 
Performance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use casePerformance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use case
inovex GmbH
 
People & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madnessPeople & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madness
inovex GmbH
 
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with PulumiInfrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
inovex GmbH
 

Mehr von inovex GmbH (20)

lldb – Debugger auf Abwegen
lldb – Debugger auf Abwegenlldb – Debugger auf Abwegen
lldb – Debugger auf Abwegen
 
Are you sure about that?! Uncertainty Quantification in AI
Are you sure about that?! Uncertainty Quantification in AIAre you sure about that?! Uncertainty Quantification in AI
Are you sure about that?! Uncertainty Quantification in AI
 
Why natural language is next step in the AI evolution
Why natural language is next step in the AI evolutionWhy natural language is next step in the AI evolution
Why natural language is next step in the AI evolution
 
WWDC 2019 Recap
WWDC 2019 RecapWWDC 2019 Recap
WWDC 2019 Recap
 
Network Policies
Network PoliciesNetwork Policies
Network Policies
 
Interpretable Machine Learning
Interpretable Machine LearningInterpretable Machine Learning
Interpretable Machine Learning
 
Jenkins X – CI/CD in wolkigen Umgebungen
Jenkins X – CI/CD in wolkigen UmgebungenJenkins X – CI/CD in wolkigen Umgebungen
Jenkins X – CI/CD in wolkigen Umgebungen
 
AI auf Edge-Geraeten
AI auf Edge-GeraetenAI auf Edge-Geraeten
AI auf Edge-Geraeten
 
Prometheus on Kubernetes
Prometheus on KubernetesPrometheus on Kubernetes
Prometheus on Kubernetes
 
Deep Learning for Recommender Systems
Deep Learning for Recommender SystemsDeep Learning for Recommender Systems
Deep Learning for Recommender Systems
 
Azure IoT Edge
Azure IoT EdgeAzure IoT Edge
Azure IoT Edge
 
Representation Learning von Zeitreihen
Representation Learning von ZeitreihenRepresentation Learning von Zeitreihen
Representation Learning von Zeitreihen
 
Talk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale AssistentenTalk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale Assistenten
 
Künstlich intelligent?
Künstlich intelligent?Künstlich intelligent?
Künstlich intelligent?
 
Dev + Ops = Go
Dev + Ops = GoDev + Ops = Go
Dev + Ops = Go
 
Das Android Open Source Project
Das Android Open Source ProjectDas Android Open Source Project
Das Android Open Source Project
 
Machine Learning Interpretability
Machine Learning InterpretabilityMachine Learning Interpretability
Machine Learning Interpretability
 
Performance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use casePerformance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use case
 
People & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madnessPeople & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madness
 
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with PulumiInfrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
 

Big Data Basics

  • 1. BIG DATA BASICS NICHT NUR AUF DIE GRÖSSE KOMMT ES AN.
  • 3. Use Case: LHC / CERN Use Case: LHC / CERN ‣ 27-km-Ring bei Genf, 100 m unter der Erde ‣ 600 Millionen ProtonenKollisionen pro Sekunde ‣ Aufgezeichnet von Detektoren mit Millionen von Channels ‣ 1 PB generierte Daten pro Sekunde ‣ 25 PB gespeicherte Daten pro Jahr Illustration: CERN
  • 4. Wie kann man mit diesem Daten-Volumen umgehen? Use Case: LHC / CERN ‣ Wie speichern? ‣ Wie übertragen? ‣ Wie verarbeiten? ‣ Wie etwas finden? Illustration: CERN
  • 5. Teile und (be)herrsche! Use Case: LHC / CERN WLCG (World Wide LHC Computing Grid) ‣ ‣ ‣ 170 Sites weltweit ‣ 4.000 – 65.000 Cores ‣ 2 GB RAM pro Core ‣ 1 – 30 PB storage 1,5 Millionen Jobs pro Tag Zugriff in Echtzeit für 8.000 Physiker
  • 7. Was wird aus Fernsehen? Was wird aus Fernsehen?
  • 9. ... und es wird interaktiv.
  • 10. Use Case: TV und Social Media „Wer wird in der nächsten Woche vorne sein?” „In order to win you need to tune in …“ Gamification & CRM #GNTM ist in aller Munde … Social Media ProSieben Connect Echte Fans möchten mehr wissen … Backstage Content
  • 11. Eine andere Art von Daten Strukturierte Informationen Unstrukturierte Informationen Semi-strukturierte Informationen
  • 13. Use Case: Realtime Bidding ‣ ‣ ‣ weiblich 31 bis 40 Jahre alt ... Was würden Sie für eine exklusive Anzeige auf der Seite bezahlen, die sie gerade betrachtet? Sie haben 300 Milli-Sekunden Zeit für Ihre Antwort!
  • 14. VIELEN DANK!  WIR SEHEN UNS AN UNSEREM INFOPOINT …

Hinweis der Redaktion

  1. accelerator underground, large ring from superconducting magnets to bend particles (picture)Coldest place on earth (He -271°C)Protons clockwise and counterclockwise at almost speed of lightCollisions at certain interaction points around the ring, surrounded by huge detectors (2 of 4 shown in picture)Huge interaction rateEach collision fires millions of detector channelsGenerates 1 PB/s of dataWay too heavy, need online decision on basic observables whether to keep eventRemaining dataset is still 25 PB/a
  2. accelerator underground, large ring from superconducting magnets to bend particles (picture)Coldest place on earth (He -271°C)Protons clockwise and counterclockwise at almost speed of lightCollisions at certain interaction points around the ring, surrounded by huge detectors (2 of 4 shown in picture)Huge interaction rateEach collision fires millions of detector channelsGenerates 1 PB/s of dataWay too heavy, need online decision on basic observables whether to keep eventRemaining dataset is still 25 PB/a
  3. Heatmap from http://rtm.hep.ph.ic.ac.uk/webstart.phpNeed WLCG to cope with the data volume170 sites layered in tiers (central tuer-0, national tier-1’s, many tier-2’s)Highlight sites specs + high-throughput bandwidth among sitesCollision data spread over the entire grid. Always keep copies.Provide data to final analysesMassive access from 8000 physicists in parallel. 1.5 million jobs/d.Jobs come to data, not vice versa. Save bandwidth.It works: Higgs Discovery 2012, many measurements and discoveries may lie ahead.