DE- Module 1 - Introduction to Smart Data

D: DRIVE
Wie arbeitet man
datengesteuert?
?
This programme has been funded with
support from the European Commission
Modul 1: Die Einführung in Big und Smart Data

Smart Data Smart Region | www.smartdata.how
Dieses Programm wurde mit Unterstützung der Europäischen Kommission finanziert. Der Autor
ist allein verantwortlich für diese Veröffentlichung (Mitteilung) und die Kommission übernimmt
keine Verantwortung für die Verwendung der darin enthaltenen Informationen.
Modul 1: Die
Einführung in Big
und Smart Data
Ziel dieses Moduls ist es, einen Überblick über die
grundlegenden Informationen von Big & Smart Data zu
geben.
Nach diesem Modul werden Sie:
- die immer bedeutender werdende Rolle von Big Data
begreifen
-die Schlüsselbegriffe bezüglich Big & Smart Data
verstehen
- Wissen wie sich Big Data zu Smart Data entwickeln kann
- In der Lage sein die Schlüsselbegriffe auf Big und Smart
Data anzuwenden
Dauer des Moduls: voraussichtlich 1 – 2 Stunden

Die aufstrebende Rolle von Big Data in der
Berufsbildung und im Unternehmertum und der1
Die V‘s der Daten2
Wie wird aus Big Data Smart Data?3
Dieses Programm wurde mit Unterstützung der Europäischen Kommission finanziert. Der Autor
ist allein verantwortlich für diese Veröffentlichung (Mitteilung) und die Kommission übernimmt
keine Verantwortung für die Verwendung der darin enthaltenen Informationen.
– Die Geschichte der Daten
– Was ist Big Data?
– Datenquellen
– Die Bedeutung von Big Data
– Big Data in Wert verwandeln
– Smart Data Anwendungen
– Wie starten Sie Smart?
– Big Data Herausforderungen

1. Die Geschichte der Daten
2. Was ist Big Data?
3. Die Einordnung von Daten
4. Datenquellen
5. Die Bedeutung von Daten
DIE AUFSTREBENDE ROLLE
VON BIG DATA IN DER
BERUFSBILDUNG UND IM
UNTERNEHMERTUM

DIE GESCHICHTE DER DATEN
Lange bevor Computer, (wie wir sie heute kennen) alltäglich
waren, war die Idee der Erschaffung einer stetig wachsenden
Wissenssammlung, welche bereit für die Analyse ist, in der
Wissenschaft beliebt. Aber oft vergessen wir, dass unsere
steigende Fähigkeit Informationen zu speichern und zu
analysieren, eine stufenweise Evolution war und das obwohl
sich gerade am Ende des letzten Jahrhundert sehr viel getan
hat (z.B. Erfindung des digitalen Speichers und des Internets)
Bevor wir nun in Modul 1 eintauchen, werfen wir zunächst
einen Blick auf die lange Geschichte der Gedanken und
Innovationen der Datenentwicklung.

C 18,000 BCE
Die frühesten Beispiele, die wir von
Menschen, die Daten speichern und
analysieren, haben, sind die Tally-
Sticks. Der Ishango-Knochen wurde
1960 entdeckt und gilt als einer der
frühesten Zeugnisse der
prähistorischen Datenspeicherung.
Kerben wurden in Stöcke oder
Knochen geritzt, um den Überblick
über die Handelstätigkeit oder die
Versorgung zu behalten. Sie würden
Stöcke und Kerben vergleichen, um
rudimentäre Berechnungen
durchzuführen, die es Ihnen
ermöglichen, Prognosen über
beispielweise ihre
Lebensmittelvorräte aufzustellen.
C 2400 BCE
Der Abacus – das erste eigens für die
Durchführung von Berechnungen
konstruierte Gerät, das in Babylon
zum Einsatz kommt. Um diese Zeit
entstehen auch die ersten
Bibliotheken, die unsere ersten
Versuche der massenhaften
Datenspeicherung repräsentierten.
300 BC – 48 AD
Die Bibliothek von Alexandria, in
welcher bis zu einer halbe Million
Schriftrollen untergebracht waren, ist
wohlmöglich die größte Sammlung
von Daten in der Antike
Unglücklicherweise wurde sie vom
Einmarsch der Römer 48AD zerstört.
Jedoch wurde im Gegensatz zu den
erzählten Mythen nicht alles zerstört-
bedeutende Teile der Sammlung
wurden in andere Gebäude der Stadt
verlegt oder gestohlen und in der
antiken Welt zerstreut.
C 100 – 200 AD
Der Antikythera-Mechanismus, der
früheste entdeckte mechanische
Computer, wurde vermutlich von
griechischen Wissenschaftlern
hergestellt. Es handelt sich um "CPU"
bestehend aus 30 ineinander
verschachtelten Bronze Rädern, und
es wird angenommen, dass es für
astrologische Zwecke und die
Verfolgung des Zyklus der
Olympischen Spiele konzipiert
wurde. Sein Design deutet darauf
hin, dass es sich wahrscheinlich um
eine Evolution eines früheren
unentdeckt gebliebenen Geräts
handelt.
Die Antike Geschichte der Daten

1663
In London wird durch John Graunt
das erste dokumentierte Experiment
in der statistischen Datenanalyse
durchgeführt. Durch die Aufnahme
von Informationen über die
Sterblichkeit, nahm er an, dass er ein
Frühwarnsystem für die Europa
verwüstende Beulenpest entwerfen
kann.
1865
Der Begriff “business intelligence”
wird von Richard Millar Devens in
seinem Werk “Encyclopedia of
Commercial and Business
Anecdotes” das erste Mal benutzt. In
diesem Werk erzählt er wie es dem
Bankier Henry Furnese gelingt sich
einen Vorteil gegenüber seiner
Konkurrenz, durch die Sammlung und
Analyse von Informationen, die für
seine Geschäftsaktivitäten relevant
sind , zu schaffen. Dies tut er
außerdem auf strukturierte Art und
Weise. Man nimmt an, dass es sich
hierbei um die ertse Studie eines
Unternehmens, das Datenanalyse für
kommerzielle Zwecke einsetzt,
handelt.
1880
Das stattistische Bundesamt der USA weist auf ein Problem hin – es schätzt,
dass es 8 Jahre dauern wird, um alle Daten zu knacken, die in der Volkszählung
1880 gesammelt wurden, und es wird prognostiziert, dass die Daten, die durch
die 1890-Volkszählung generiert werden, über 10 Jahre dauern werden, was
bedeutet, dass es nicht einmal bereit sein wird, die Daten vor der Volkszählung
1900 zu überprüfen.
1881 stellt ein junger Ingenieur, der im Büro Herman Hollerith beschäftigt ist,
die so genannte Hollerith-tabulating-Maschine her.
Mit Hilfe von Lochkarten reduziert er so die Arbeit von 10 Jahren auf drei
Monate und wird somit Vater der modernen automatisierten Berechnung. Die
Firma, die er gründet, wird später unter dem Namen "IBM" bekannt werden.
Die Entstehung dre Statistik

1926
In einem Interview mit dem Magazin
Colliers stellt der Erfinder Nikola
Tesla fest, dass, wenn die drahtlose
Technologie "perfekt angewendet
wird, die ganze Erde in ein riesiges
Gehirn umgewandelt wird. Dies ist
sie jedoch schon, denn alle Dinge
sind Teilchen eines realen und
rhythmischen Ganzen und die
Instrumente, durch die wir in der
Lage sein werden, dies zu tun,
werden im Vergleich zu unseren
derzeitigen Telefonen erstaunlich
einfach sein. Ein Mann wird in der
Lage sein, es in seiner Westentasche
zu tragen. "
1928
Fritz Pfleumer, ein deutsch-
australischer Ingenieur, erfindet eine
Methode Daten magnetisch auf Band
zu speichern.
Die Grundsätze die er erfindet
werden noch heute genutzt, da die
Mehrheit digitaler Daten magnetisch
auf Computerfestplatten gespeichert
werden.
1944
Fremont Rider, Bibliothekar an der Wesleyan University in Connecticut, USA,
veröffentlichte ein Papier mit dem Titel: The Scholar and the Future of the
Research Library.
In einem der frühesten Versuche, die Menge der produzierten Informationen
zu quantifizieren, stellt er fest, dass die amerikanischen Bibliotheken ihre
Kapazitäten alle 16 Jahre verdoppeln müssten, um alle akademischen und
populären Werke, die produziert werden, zu lagern. Dies veranlasst ihn zu
Spekulationen, dass die Yale-Bibliothek bis 2040 200 Millionen Bücher
enthalten wird, die sich auf 6.000 meilenlangen Regalen verteilen werden.
Die Anfangszeit der modernen Datenspeicherung

1958
IBM-Forscher Hans
Peter Luhn definiert
die Geschäftsanalytik
als “eine Fähigkeit,
die Zusammenhänge
der dargestellten
Tatsachen so zu
erfassen, dass das
Handeln zu einem
angestrebten Ziel
führt. "
1962
Es werden die ersten
Schritte in Richtung
Spracherkennung
gemacht, mit der
Vorstellung der
“Shoebox Machine”,
durch den IBM-
Ingenieur William C
Dersch, bei der im Jahr
1962 stattfindenen
Weltausstellung. Es
kann Zahlen und
sechzehn Wörter, die
in der englischen
Sprache gesprochen
werden, in digitale
Informationen
übertragen.
1964
Ein Artikel in
der “New
Statesman”
verweist auf die
Schwierigkeit
der Verwaltung
der
ansteigenden
Mengen von
zugänglich
werdenden
Informationen.
Der Beginn der Geschäftsanalytik Der Anfang großer Datenzentren
1970
IBM-Mathematiker Edgar
F Codd präsentiert seine
Grundstruktur einer
“relationalisierbaren
Datenbank”. Sein Modell
liefert die Grundstruktur,
die noch heutzutage viele
Datenservice nutzen, um
Informationen in einem
hieraschischen Format zu
speichern. Dies kann von
jedem, der weiß nach was
er schaut, in Anspruch
genommen werden.
1976
MRP-Systeme
(Material
Requirements
Planning) werden in
der Geschäftswelt
immer häufiger
verwendet und
stellen eine der
ersten kommerziellen
Anwendungen von
Computern dar, um
alltägliche Prozesse
beschleunigen und
effizienter zu
machen.
1989
Wahrscheinlich der erste
Gebrauch des Begriffes Big
Data unter dem was wir
heute verstehen. Der
internationale
Bestsellerautor Erik Larson
schreibt einen Artikel für das
Harpers Magazine, in dem er
über die Herkunft der Junk-
Mail (Spam), die er erhält,
spekuliert. Er schreibt: "Die
Aufseher von Big Data
sagen, sie tun es zum Nutzen
der Verbraucher. Aber Daten
haben eine Möglichkeit, für
andere als ursprünglich
beabsichtigte Zwecke
verwendet zu werden. "

1991
Der Informatiker Tim
Berners-Lee verkündet die
Geburt, von dem was das
Internet werden würde. In
einem Beitrag der Usenet-
Gruppe alt.hypertext legt er
die Vorschriften für ein
weltweites, miteinander
verbundenes und für
jedermann zugänglichen
Datennetzes fest.
1996
Laut R J T Morris und
B J Truskowski in
ihrem 2003
veröffentlichten
Buch “The Evolution
of Storage Systems”,
heißt es, wir seien
nun an einem
Zeitpunkt
angelangt an dem
digitaler Speicher
rentabler als Papier
ist.
1997
Michael Lesk veröffentlicht sein Werk “How
Much Information is there in the World?”, in
welchem er die Theorie aufstellt, dass die
Existenz von 12.000 Petabyte wohlmöglich
keine sinnlose Vermutung sei. Er weist
außerdem darauf hin, dass trotz dieses
frühen Zeitpunkts der Entwicklung des
Internets, sich das Netz jedes Jahr um sein
10.faches vergrößert. Außerdem sagt er, dass
viele der Daten von niemandem angesehen
werden und daher keine Erkenntnisse
bringen.
Die Gründung von Google Search erfolgt in
diesem Jahr und für (zumindest) die nächsten
20 Jahr wird Google Search die
herkömmliche Website für die Suche im
Internet nach Daten sein.
Die Entstehung des Internets Frühe Ideen von Big Data
1999
Einige Jahre später erscheint der Begriff Big Data in
dem von dem Verband der Rechenmaschinen
veröffentlichten Werk “Visually Exploring Gigabyte
Datasets in Real Time”. Auch hier wird die Neigung
zur Speicherung großer Datenmengen, die nicht
ausreichend analysiert werden können, beklagt.
Zudem wird im Werk der Computin Pioneer Richard
W Hamming zitiert: ”Sinn und Zweck der
Datenverarbeitung ist es Erkentnisse und keine
Zahlen zu erzeugen.”
Auch wird der Begriff “Internet of Things”
möglicherweise zum ersten Mal benutzt, um die
wachsende Anzahl von Online-Geräten und durch
diese erbrachte Möglichkeit ohne "menschlichen
Mittelmann" miteinander zu kommunizieren, zu
beschreiben.

2000
In ”How Much Information?” Peter
Lyman and Hal Varian (nun
leitender Betriebswirt von Google)
versuchen zum ersten Mal den
Umfang der digitalen Information
in der Welt und ihre
Wachstumsrate zu quantifizieren.
Sie folgerten: "Die weltweite
jährliche Produktion von Druck-,
Film-, optischen und magnetischen
Inhalten würde etwa 1,5 Milliarden
Gigabyte Speicher benötigen. Das
entspricht 250 Megabyte pro
Person für jeden Mann, jede Frau
und jedes Kind auf der Erde."
Frühe Ideen von Big Data Web 2.0 erhöht die Menge an
Daten
2005
Kommentatoren geben bekannt, dass wir die Geburt vom "Web 2.0" erleben,
einem von Nutzern generierten Netz, bei dem der Großteil der Inhalte von
den Nutzern der Dienste und nicht von den Dienstanbietern selbst,
bereitgestellt wird. Dies wird durch die Integration von auf SQL-basierenden
traditionellen Webseiten im HTML-Stil mit umfangreichen Backend-
Datenbanken erreicht.
Außerdem nutzen bereits 5,5 Millionen Menschen, dass erst ein Jahr zuvor
gegründete Facebook, um ihre eigenen Daten hochzuladen und mit Freunden
zu teilen.
Auch die Gründung von Hadoop erfolgt im Jahr 2005. Hierbei handelt es sich
um eine Open-Source-Grundstruktur, die speziell für die Speicherung und
Analyse von Big Data-Sets entwickelt wurde. Durch seine Flexibilität ist es
perfekt für die Verwaltung der unstrukturierten Daten (Sprache, Videos,
Rohtexte usw.), die wir zunehmend generieren und sammeln, geignet. .
2001
In seinem Werk namens “ 3D Data
Management: Controlling Data Volume,
Velocity and Variety” definiert Doug
Laney, Analytiker bei Gartner, die
Begriffe volume, velocity und variety,
dass heißt drei der fünf Eigenschaften
von Big Data.
Im selben Jahr wird auch erstmals der
Begriff “Software as a service”, im von
der Vereinigung der Software- und
Informationsindustrie veröffentlichten
Artikel “Strategic Backgrounder”
verwendet. Hierbei handelt es sich um
ein fundamentals Konzept der auf der
Cloud basierenden Anwendungen,
welche heutzutage als
Industriestandards gelten.

2008
Alle Server der Welt
verarbeiten 9,57 Zettabyte
(9,57 Billionen Gigabyte) an
Informationen, entsprechend
12 Gigabyte an
Informationen pro Person
und Tag, laut des 2010
erschienenen Berichtes "How
much information?". Bei der
internationalen Produktion
und Verbreitung von
Informationen wird
geschätzt, dass in diesem
Jahr 14,7 Exabyte an neuen
Informationen produziert
werden.
Der heutige Gebrauch des Begriffes ‘Big Data’
entwickelt sich
2010
Eric Schmidt,
Vorstands-
vorsitzender von
Google, erklärt auf
einer Konferenz,
dass alle zwei Tage
so viele Daten wie
vom Beginn der
menschlichen
Zivilisation bis zum
Jahr 2003 erstellt
werden.
2009
Laut dem vom McKinsey
Global Institut
veröffentlichte Bericht
“Big Data: The Next
Frontier for Innovation,
Competition and
Productivity” speichert
das durchschnittliche US-
Unternehmen mit über
1.000 Angestellten mehr
als 200 Terabyte an
Daten.
2011
Der McKinsey-Bericht
prognostiziert, dass bis
2018 in den USA
zwischen 140.000 und
190.000 professionelle
Datenwissenschaftler
fehlen werden und dass
Probleme wie
Datenschutz, Sicherheit
und geistiges Eigentum
gelöst werden müssen,
bevor der volle Wert von
Big Data realisiert wird.
2015
Google ist mit dem Speichern von 10
Milliarden Gigabytes von Daten und der
Bearbeitung von ca. 3.5 Milliarden
Suchanfragen pro Tag, das größte Big Data
Unternehmen auf der Welt.
Amazon ist das Unternehmen mit der meisten
Anzahl an Servern. Die 1,000,000,000
Gigabyre an Speicher die von den 152
Millionen Kunden von Amazon produziert
werden, werden auf mehr als 1,400,000
Servern in verschiedenen Datenzentren
gespeichert.

Big Data ist die
Grundlage aller
heutigen Megatrends
von Social zu Mobilebis
hin zur Cloud und
Gaming.
Chris Lynch

Es gibt Dinge die so groß sind , dass sie ;ob wir es wollen
oder nicht; Auswirkungen für jedermann hat. Big Data ist
eines dieser Dinge, denn es verändert die Art und Weise,
wie wir Geschäfte machen vollkommen. Außerdem hat es
auch Einfluss auf die meisten anderen Teile unseres
Lebens.
Die Grundidee des Begriffes „Big Data“ ist, dass alles was
wir tun eine digitale Spur hinterlässt, welche wir nutzen
und analysieren können. Big Data verweist daher auf
unsere Fähigkeit Nutzen, aus der immer größer
werdenden Datenmenge, zu ziehen
WAS IST BIG DATA?
„Daten einer sehr großen Größe, oft
auch zu dem Ausmaße, dass ihre
Bearbeitung und Verwaltung
bedeutende logistische
Herausforderungen darstellen.”
Oxford English Dictionary, 2013

STRUKTURIERTE
DATEN
UNSTRUKTURIERTE
DATEN
Daten sind die Mengen, Zeichen oder Symbole, auf denen Arbeitsvorgänge von einem Computer durchgeführt werden, die in Form
von elektrischen Signalen gespeichert und übertragen werden können und auf magnetischen, optischen oder mechanischen
Aufzeichnungsmedien aufgezeichnet werden
Das Konzept von Big Data ist nicht complex, aber wie der Name schon sagt bezieht er sich auf die unglaublich große Menge an
Daten, die zu groß sind um sie mit den traditionellen Hilsmitteln zu Analysieren oder zu Verarbeiten. Außerdem können diese
Daten nicht effizient gespeichert oder verwaltet werden. Da die Menge an Big Data exponentziell steigt, (allein auf Facebook
werden täglich mehr als 500 Terabyte Daten hochgeladen), stellt dies für die Analyse ein riesen Problem dar.
Bei der Analyse von Big Data gibt es aber auch ein enormes Potenzial. Die ordnungsgemäße Verwaltung und Erforschung dieser
Daten kann Unternehmen dabei helfen, bessere Entscheidungen auf der Grundlage von Nutzungsstatistiken und Nutzerinteressen
zu treffen und so ihrem Wachstum beizutragen. Einige Unternehmen haben sogar neue Produkte und Dienste basierend auf dem
Feedback der Big Data Analysemöglichkeiten, entwickelt. Big Data ist weitgehend in drei Haupttypen klassifiziert, diese lauten:
SEMI-
STRUKTURIERTE
DATEN
DIE EINORDNUNG VON DATEN
1 2 3

STRUKTURIERTE
DATEN
1
Strukturierte Daten beziehen sich auf Daten die schon auf geordnete Art und Weise in Datenbanken gespeichert sind. Dies
trifft auf etwa 20% der existierenden Daten zu und wird am häufigsten beim Programieren und computerbezogenen
Aktivitäten benutzt.
Es gibt zwei Quellen strukturierter Daten: Datenmaschienen und Menschen. All die Daten die durch Sensoren, Weblogs
und Finanzsysteme empfangen wurden gehören zu den maschinengenerierten Daten (z.B. Medizinische Geräte, GPS-
Daten, Daten von Nutzungsstatistiken, die von Servern und Anwendungen erfasst werden, eine riesige Menge an Daten,
die normalerweise über Handelsplattformen verfahren)
Die vom Mensch geschaffenen strukturierten Daten beinhalten hauptsächlich all die Daten, die ein Mnesch in den
Computer eingibt (z.B. Name und andere persönliche Daten) Wenn eine Person einen Link im Internet anklickt oder sie
sogar nur einen Spielzug macht werden Daten geschaffen, welche Unternehmen benutzen um das Kundenverhalten zu
ergründen und die darauf basierenden entsprechenden Entscheidungen zu treffen.
Beispiel von strukturierten Daten
Eine Tabelle von ‘Angestellten’ in einer
Datenbank ist ein Beispiel von
strukturierten Daten.
Employee_ID Employee_Name Geschlecht Department Gehalt in Euros
2365 Rajesh Kulkarni Männlich Finance 65000
3398 Pratibha Joshi weiblich Admin 65000
7465 Shushil Roy Männlich Admin 50000
7500 Shubhojit Das Männlich Finance 50000
7699 Priya Sane Weiblich Finance 55000

UNSTRUKTURIERTE
DATEN
2
Während strukturierte Daten in der traditionellen Zeilen/Spalten Datenbank liegt, haben unstrukturierte Daten kein klares
Format bei der Speicherung. Um die 80% der existierenden Daten sind unstrukturierte Daten. Die moisten Daten denen
wir begegnen gehören zu der hier genannten Kategory von Daten und bis vor Kurzem konnte man auch nichts anderes mit
ihnen anfangen als sie zu speichern oder sie manuell zu analysieren.
Unstrukturierte Daten werden auch basierend ihrer Quellen in maschinengenerierte Daten oder vom Menschen
geschaffene Daten aufgeteilt. Maschinengenerierte Daten sind zum Beispiel: Satellitenbilder, wissenschaftliche Daten aus
verschiedenen Experimenten und Radardaten, welche durch verschiedene Facetten der Technologie erfasst wurden.
Vom Menschen geschaffene unstrukturierte Daten findet man im gesamten Internet im Überfluss, da es Social Media
Daten, mobile Daten und Website Inhalte beinhaltet. Das bedeutet dass die Bilder die wir auf Instagram oder Facebook
hochladen, die Videos die wir uns auf YouTube anschauen und sogar die Nachrichten die wir versenden zu dem
gigantischen Huafen an unstrukturierter Daten beitragen.
Beispiel Unstrukturierter Daten
Das bei 'Google Search‚ gesendete
Ergebnis einer Suchanfrage.

SEMI-
STRUKTURIERTE
DATEN
3 Die Grenze zwischen unstrukturierter und semi-strukturierter Daten war nie ganz klar, da die meisten semi-strukturierten
Daten, auf den ersten Blick unstrukturiert erscheinen. Informationen die nicht im traditionellen Datenbankformat wie
strukturierte Daten gespeichert sind, aber einige organisatorische Eigenschaften enthalten, die deren Verarbeitung
erleichtern, sind in semi-strukturierten Daten enthalten. Beispielsweise werden NoSQL-Dokumente als semi-strukturiert
betrachtet, da sie Schlüsselwörter enthalten, mit denen das Dokument problemlos verarbeitet werden kann.
Eine E-Mail ist ebenfalls ein Beispiel für semi-strukturierte Daten. Sie enthalten klar definierte Datenfelder, wie Absender,
Empfänger usw., in der Kopfzeile, während der eigentliche Körper (also Inhalt) für Unternehmen unstrukturiert sind. Wenn
Sie herausfinden wollen wer wem e-mailt (Informationen in der Kopfzeile), wären rationale Datenbanken eine gute Wahl.
Aber wenn Sie sich mehr für den Inhalt der Nachricht interessieren, wären Big Data Hilfsmittel wie zum Beispiel die
Verarbeitung natürlicher Sprache eine bessere Wahl.
Beispiel semi-strukturierter Daten
Personal data stored in a XML file.

DATENQUELLEN
Big Data wird oft auf einige wenige Sorten reduziert, darunter Social-Media-Daten,
Maschinendaten und Transaktionsdaten.
Maschinendaten bestehen aus Informationen die aus Industriegeräten generiert
wurden, aus Echtzeit Daten von Sensoren, welche Teile verfolgen und Maschinen überwachen
(wird auch “the Internet of Things” genannt), und sogar aus Internetprotokollen die das
Verhalten der Nutzer online überwachen. Beim arcplan Klienten CERN, dem größten
Teilchenphysik-Forschungszentrum der Welt, generiert der Large Hadron Collider (LHC) bei
Experimenten jede Sekunde 40 Terabyte Daten.
Große Einzelhändler und sogar B2B Unternehmen können durch Transaktionsdaten regelmäßig
eine Vielzahl an Daten generierenegarding transactional data, large retailers and
even B2B companies can generate multitudes of data on a regular basis considering that their
transactions consist of one or many items, product IDs, prices, payment information,
manufacturer and distributor data, and much more.
Social-Media-Daten liefern den Unternehmen bemerkenswerte Einblicke in das
Konsumverhalten und die Stimmungen der Kunden, welche mit CRM-Daten in Analysen
integriert warden können, mit 230 Millionen Tweets die pro Tag auf Twitter gepostet warden,
2,7 Milliarden Likes und Kommentare die pro Tag auf Facebook hinzugefügt warden und 60
Stunden an Videos die jede Minute auf Youtube hochgeladen warden (das ist was velocity der
Daten bedeutet)

Social Media Data
Social Networking and
Media
Big Data sind all die immensen Mengen an unstrukturierter Daten, die von Sozialen Netzwerken aus einer breiten Palette von
Quellen wie Social Media, ‘Likes’,’Tweets’, Blogposts, Kommentaren, Videos und Nachrichten aus Foren erzeugt werden. Google zum
Beispiel verbeitet an jedem Tag 24 Petabyte Daten.(Info: Die meisten Daten sind nicht in Reihen und Spalten organisiert. Big Data
berücksichtigt auch Echtzeitinformationen von RFIDs und allen Arten von Sensoren. Die soziale Intelligenz, die aus Daten dieser
Größenordnung gewonnen werden kann, ist enorm. Experten und Technologen von Organisationen haben angefangen den
potentiellen Wert der durch soziale Unterhaltungen generierten Daten zu erkennen. Big Data ist auch bekannt unter bound und
unbound data.
Soziale Netzwerke haben ein geometrisches Wachstumsmuster. Big Data Technologien und Anwendungen sollten die Fähigkeit
haben große unstrukturierte Daten zu skalieren und zu analysieren. Sie sollten außerdem fähig sein in Echtzeit zu analysieren. Social
Media Unterhaltungen erzeugen einen Zusammenhang zu den Informationen. Solche Zusammenhänge sind gerade für den
Austausch von Wissen und dem Know-How eine unbezahlbare Ressource. Der Kontext von Unterhaltungen ist der Schlüssel zum
Erfolg eines sozialen Netzwerkes. Es ist keine leichte Aufgabe die Millionen an Nachrichten zu analysieren und das auch noch
täglich. Hierbei kann widerum die traditionelle Analytik This is where traditional analytics can help mainstream Big data analysis and
both need to go hand in hand.

Teilen
WhatsApp-Nutzer
347.222
Fotos.
JEDE
MINUTE
JEDES TAGES
Werden
204,000,000
E-Mails
versendet.
Laden
Youtube-Nutzer
4.320
Minuten neuer
Videos hoch.
Erhält Google über
4.000.000
Suchanfragen.Teilen
Facebook-Nutzer
2.460.000
Inhalte.
Twitter users tweet
277.000
times.
Macht Amazon
83.000$
beim Online-
Verkauf.Posten
Instagram-Nutzer
216.000
neue Fotos.
Verbinden
sich
Skype-Nutzer
für
23.300
Stunden.
SM-Beispiele:

Maschinendaten
Social Networking and
Media
Maschinendaten befinden sich überall. Sie werden von Flugzeugen und Aufzügen bis hin zu Ampeln und
Fitnessüberwachungsgeräten geschaffen. It intersects with and improves human lives in countless ways every day. Such data
became more prevalent as technologies such as radio frequency identification (RFID) and telematics advanced. More recently,
machine data has gained further attention as use of the Internet of Things, Hadoop and other big data management technologies
has grown.
Application, server and business process logs, call detail records and sensor data are prime examples of machine data. Internet
clickstream data and website activity logs also factor into discussions of machine data.
Combining machine data with other enterprise data types for analysis is expected to provide new views and insight on business
activities and operations. For example, some large industrial manufacturers are analyzing machine data on the performance of field
equipment in near-real-time, together with historical performance data, to better understand service problems and to try to predict
equipment maintenance issues before machines break down.
Maschinen-generierte Daten sind das Lebenselixier von the Internet of Things (IoT).

Transaktionsdaten
Transaktionsdaten sind Informationen, welche direkt aus dem Ergebnis der Transaktion stamen. Anders als andere Arten von Daten
sichern Ihnen Transaktionsdaten die Aktualität der Daten, was bedeutet dass die Daten ganz aktuell sind und mit der Zeit an
Bedeutung verlieren.
Anstatt Gegenstand der Transaktionen wie dem gekauften Produkt oder der Identität des Kunden zu sein, handelt es sich eher um
Referenzdaten, die Zeit, Ort, Preise, Zahlungsmethoden, Rabattwerte und Mengen im Zusammenhang mit dieser bestimmten
Transaktion beschreiben.
Einkäufe Rücksendungen Rechnungen Bezahlung Kredite
Spenden Handel
Gewinn-
anteile
Verträge Interessen
Gehaltslisten
Darlehens-
vergabe
Reservierungen Anmeldungen Abonnements
Beispiele Transaktionsdaten:

DIE BEDEUTUNG VON BIG DATA
Bei Big Data geht es nicht darum, wie viel Daten ein Unternehmen hat, sondern wie ein Unternehmen diese
gesammelten Daten nutzt. Jedes Unternehmen nutzt Daten in seiner eigenen Art und Weise, je effizienter ein
Unternehmen seine Daten nutzt, desto mehr Potential hat es zu wachsen. Das Unternehmen kann Daten aus allen
Quellen nehmen und analysieren, um Antworten zu finden, die folgendes ermögliche:
Kosten-
einsparungen
Einige Tools von Big Data können den Unternehmen Kostenvorteile bringen, wenn große
Datenmengen gespeichert werden sollen. Diese Tools helfen auch bei der Identifizierung
effizienterer Geschäftsmethoden.
Zeitminimierung
Die schnell handelnden Tools und die in-memory-Analytik können sehr einfach neue
Datenquellen identifizieren, welche den Unternehmen bei der sofortigen Analyse von
Daten und der schnellen Treffung von Entscheidungen basierend auf dem Gelernten
helfen.
Neue Produkt-
entwicklungen
Dadurch, dass Sie über die Tendenzen der Kundenbedürfnisse und Zufriedenheit durch die
Analytik bescheid wissen, können Sie Produkte nach den Bedürfnissen Ihrer Kunden
erstellen
Das Verstehen der
Markt-
bedingungen
Durch die Analyse von Big Data können Sie die aktuellen Marktbedingungen besser
verstehen. Beispiel: Bei der Analyse des Einaufsverhaltens seiner Kunden, kann ein
Unternehmen herausfinden welche Produkte am meisten gekauft werden und produzieren
somit Produkte nach diesen Tendenzen
Kontrolle der
Online Reputation
Big Data Hilfsmittel können Gefühlsanalysen durchführen, wodurch Sie Feedback erhalten
(Wer sagt was über Ihr Unternehmen?) Wenn Sie die Online-Präsenz Ihres Unternehmens
überwachen und verbessern wollen, dann können Big-Data-Hilfsmittel bei all dem helfen.

5 V‘s OF DATA
Umfang (Volume)
Geschwindigkeit (Velocity)
Vielfältigkeit (Variety)
Veracity
Wert (Value)
Die Größe der
Daten die generiert
werden..
Die Geschwindigkeit
mit der Daten
generiert und
aggregiert werden
Die verschiedenen
Datentypen.
Die
Vertrauenswürdigkeit
der Daten in Bezug
auf die Genauigkeit
der Qualität .
Der ökonomische
Wert der Daten.
90% der auf der Welt bestehenden
Daten enstanden allein in den letzten
2 Jahren
Buchstäblich Lichtgeschwindigkeit!
Daten verdoppeln sich alle 40 Monate.
Strukturierte, semi-strukturierte and
unstrukturierte Daten.
Aufgrund der Anonimität des Internets
oder möglicherweise auch falscher
Identitäten wird die Seriösität der
Daten oft in Frage gestellt.
Zugang zu Big Data zu haben ist nicht
unbedingt gut, es sei denn wir können
es in Wert verwandeln.
Big Data gelingt es sehr gut uns darüber zu informieren was gerade passiert, jedoch nicht warum es passiert und was man dagegen tun
kann. Die 5 V‘s repräsentieren spezifische Eigenschaften und Merkmale, welche uns helfen sowohl die Herausforderungen als auch die
Vorteile der Big Data Initiative zu verstehen.

5 V‘s OF DATA
Volume
Die Größe der Daten die generiert werden.
Velocity
Die Geschwindigkeit mit der Daten generiert und aggregiert werden.
Variety
Die verschiedenen Datentypen.
Veracity
Die Vertrauenswürdigkeit der Daten
in Bezug auf die Genauigkeit der Qualität.
Value
Der ökonomische Wert der Daten.
Big Data gelingt es sehr gut uns
darüber zu informieren was
gerade passiert, jedoch nicht
warum es passiert und was man
dagegen tun kann. Die 5 V‘s
repräsentieren spezifische
Eigenschaften und Merkmale,
welche uns helfen sowohl die
Herausforderungen als auch die
Vorteile der Big Data Initiative
zu verstehen.

VOLUME
Volume bezieht sich auf die riesigen Datenmengen die
jede Sekunde generiert werden. Man denke nur an die
ganzen E-mails, Twitternachrichten, Fotos, Videoclips,
Sensordaten etc. die wir jede Sekunde produzieren und
versenden. Wir sprechen hierbei nicht um Terabyte
sondern um Zettabyte oder Brontobyte. Alleine auf
Facebook versenden wir 10 Milliarden Nachrichten pro
Tag, klicken den "like' button 4.5 Milliarden mal und laden
350 Millionen Bilder jeden einzelnen Tag hoch. In Kürze
warden wir jede Minute die selbe Menge an Daten
generieren, wie vom Anbeginn der Zeit bis 2008 weltweit
generiert wurden. Dies macht die Dateien zu groß um sie
mit traditioneller Datenbank-Technologie zu speichern und
zu analysieren. Mit Big-Data-Technologien können wir mit
Hilfe von verteilten Systemen, wo Teile der Daten an
anderen Orten gespeichert und per Software
zusammengeführt warden, nun diese Dateien speichern
und nutzen.

VELOCITY
Velocity bezieht sich auf die Geschwindigkeit, mit der neue
Daten generiert werden, und die Geschwindigkeit, mit der
sich die Daten bewegen. Man denke nur an Social-Media-
Nachrichten, die in Sekunden Viral gehen, oder an die
Geschwindigkeit, mit der Kreditkartentransaktionen auf
betrügerische Aktivitäten überprüft werden. Auch sollte
man bedenken dass Handelssysteme nur Millisekunden
brauchen um Social-Media-Netwerke zu analysieren, und
somit Signale zu erhalten, die es ihnen ermöglicht
Entscheidungen über den Kauf oder Verkauf von Aktien
auszulösen. Big Data Technologien ermöglichen es uns nun
Daten während sie generiert werden zu analysieren, ohne
sie jemals in eine Datenbank gesteckt zu haben.

VARIETY
Variety bezieht sich auf die verschiedenen Arten von
Daten, die wir nun verwenden können. In der
Vergangenheit konzentrierten wir uns auf strukturierte
Daten, die mühelos in Tabellen oder relationle
Datenbanken, wie Finanzdaten (z.b. Verkäufe nach Produkt
oder Region), reinpassten. Tatsächlich sind 80% der Daten
der Welt inzwischen unstrukturiert und können daher nicht
einfach in Tabellen gesteckt werden (man denke an Fotos,
Videosequenzen oder Social-Media-Updates). Mit Big Data
Technology können wir nun unterschiedlich Arten von
Daten (strukturiert und unstrukturiert) einschließlich
Nachrichten, Social-Media-Gespräche, Fotos, Sensordaten,
Video-oder Sprachaufzeichnungen nutzen und mit
traditionelleren, strukturierten Daten zusammenführen.

VERACITY
Veracity bezieht sich auf die Unordnung oder die
Vertrauenswürdigkeit der Daten. Viele Formen von Big
Data sind wegen ihrer Qualität und Genauigkeit weniger
kontrollierbar (man denke nur an Twitter-Posts mit Hash-
Tags, Abkürzungen, Tippfehler und Umgangssprache, sowie
an die Zuverlässigkeit und Genauigkeit von Inhalten), aber
Big Data und Analytik-Technologie ermöglichen es uns nun,
mit dieser Art von Daten zu arbeiten. Die Menge von Daten
machen oft den Mangel an Qualität oder Genauigkeit aus.

VALUE
Value: Es gibt noch ein weiteres V welches wir in Betracht
ziehen müssen wenn wir uns über Big Data unterhalten.:.
Value! Es is schön und gut Zugriff auf Daten zu haben
gelingt es uns jedoch nicht sie in Wert zu verwandeln, sind
sie Geschäftsszenarien nutzlos. Man kann also mit
Sicherheit argumentieren, dass "Wert" das wichtigste V
von Big Data ist. Es ist wichtig, dass die Unternehmen für
jeden Versuch, Big Data zu sammeln und zu nutzen,
Geschäftsszenarien erstellen. Auch sollte man sehr
aufmerksam sein denn es ist leicht in die Falle zu tappen
und Big Data Initiativen ohne ein klares Verständnis der
Kosten und Vorteile zu starten.
Big Data können Ihnen Wert in fast allen Bereichen des Geschäftsleben oder der
Gesellschaft liefern:
 Es hilft Unternehmen Ihre Kunden besser zu verstehen und zu bedienen.
Zum Beispiel: Empfehlungen von Amazon oder Netflix
 Es ermöglicht den Unternehmen ihre Vorgänge zu optimieren:
Uber ist in der Lage die Nachfrage zu prognostizieren, dynamically price
journeys und den nächstgelegenen Fahrer zum Kunden schicken.
 Es verbessert unser Gesundheitswesen:Regierungsbehörden können nun
Grippeausbrüche prognostizieren und Sie in Echtzeit verfolgen, und
Pharmaunternehmen sind in der Lage, Big Data Analytik für die
Beschleunigung der Entwicklung von Arneimitteln zu nutzen.
 Es hilft uns bei der Verbesserung der Sicherheit: Regierungs und
Strafverfolgungs Agenturen nutzen Big Data um Terroranschläge zu
durchkreuzen und Cyberkriminalität aufzudecken.
 Es ermöglicht Sportstars, ihre Leistung zu steigern: Sensoren in Bällen,
Kameras auf dem Spielfeld und GPS-Tracker auf ihrer Kleidung ermöglichen es
Athleten, zu analysieren und zu verbessern, was sie tun.

1. Big Data in Wert verwandeln
2. Smart Data Anwendungen
3. Wie starten Sie Smart?
4. Big Data Herausforderungen
WIE WIRD AUS BIG
DATA SMART DATA?

Big Data in Werte verwandeln
.
Die „Datafizierung“
unserer Welt
• Aktivitäten
• Unterhaltungen
• Worte
• Stimmen
• Soziale Medien
• Browser logs
• Fotos
• Videos
• Sensors
• Etc.
Big Data Analyse:
• Textananlyse
• Stimmungsanalyse
• Gesichtserkennung
• Sprachanalyse
• Etc.
VOLUMEN
GESCHWINDIG
KEIT
VIELFALT
RICHTIGKEIT
Wert
SMART
DATA
• Die "Datafizierung" unserer Welt gibt uns in Bezug auf Volumen, Geschwindigkeit, Vielfalt und
Wahrhaftigkeit unübertroffene Datenmengen. Die neueste Technologie wie Cloud Computing und
verteilte Systeme in Verbindung mit den neuesten Software- und Analyseansätzen ermöglichen es
uns, alle Arten von Daten zu nutzen, um Erkenntnisse zu gewinnen und Mehrwert zu schaffen
Smart Data beschreibt Daten, die
gültige, wohldefinierte,
aussagekräftige Informationen
enthalten, welche die
Informationsverarbeitung
beschleunigen können

SMART DATA ANWENDUNGEN
• Betrugserkennung
und Verhinderung
• Marktstimmungsanalyse
• Echtzeitpreisgestalltung
• Produktplazierungen
• Zielgerichtet Werbung
• Überwachung von
Patientenbesuchen
• Patienten-behandlung
und sicherheit
• Verringern der
Wiederaufnahmerate
• Analysieren der
Smart-Meter-Daten
• Proaktive Wartung
der Ausrüstung
• Ausgleich von
Produktion und
verbrauch
• Mobilfunk-Diagnose
• Bandbreitenverteilung
• Proaktive Wartung
• Schnellere
Markteinführung
• Versorgungsplanung
• Verbessern der
Produktqulität
• Netzwerkangriffs-
erkennung /
prävention
• Erkennen von
Krankheitsausbrüchen
• Überwachen und
Erkennen von
unsicherem Fahren
• Routen- und
Zeitplanung für
öffentliche
Transporte
FINANZDIENSTLEISTUNGEN EINZELHANDEL TELEKOMMUNIKATION HERSTELLUNG
GESUNDHEITSWESEN WERKZEUGE, ÖL, GAS ÖFFENTLICHER BEREICH TRANSPORT
Jedes Unternehmen auf der Welt braucht Daten um vorwärtszukommen. Daten
sind es die Ihnen sagen wer ihre Kunden sind und wie diese ticken, und es ist das
was sie zu neuen Erkenntnissen und Entwicklungen leiten kann. Jedes
Unternehmen kann von der Nutzung von Big Data profitieren, um mehr über seine
strategische Position und sein Entwicklungspotenzial zu erfahren. Aber um nicht in
Big Data zu "ertrinken", ist es notwendig, zuerst den richtigen Interessenbereich zu
finden.

HOW TO START SMART?
Obwohl sich Datenanalysen und Visualisierungswerkzeuge in den letzten 10 Jahren sehr stark entwickelt haben, sind die Big Data
Analysen immernoch auf menschliches Eingreifen und Koordination angewiesen, um erfolgreich zu sein. Man muss wissen, wie man
die richtigen Fragen stellt, wie man seine eigene Voreingenommenheit beseitigt und wie man handlungsfähige Einblicke statt
grundlegender Schlüsse bildet.
1. Überprüfen
Sie Ihre Daten
• Welche Art von Daten
haben Sie?
• Wie werden sie
genutzt?
• Haben Sie das Know-
how um Ihre Daten zu
verwalten?
2.Stellen Sie
die richtigen
Fragen.
• Welche Daten haben
Sie und wie werden
sie genutzt ?
• Sind Sie präzise
genug?
3. Schließen Sie
ein Fazit
daraus.
• Könnte Ihnen ein
Experte helfen, Ihre
Ergebnisse
überprüfen zu lassen?
• Können Sie Ihre
Hypothesen
bestätigen?
• Welche weiteren
Daten benötigen Sie?

MANGEL AN
PERSONAL
Um ein Big-Data-Projekt
erfolgreich umsetzen zu konnten,
bedarf es eines ausgeklügelten
Teams von Entwicklern,
Datenwissenschaftlern und
Analysten, die auch über eine
ausreichende Menge an Fach-
kenntnissen verfügen, um
wertvolle Erkenntnisse zu
identifizieren. Smart Data Smart Region | www.smartdata.how
BIG DATA
HERAUSFORDERUNGEN
Es ist leicht, sich in den Hype und die Chancen von Big Data zu verstricken. Einer der Gründe, warum Big
Data so wenig genutzt wird, ist, dass Big Data und Big Data-Technologien ebenfalls viele
Herausforderungen darstellen. Eine Umfrage ergab, dass 55% der Big-Data-Projekte nie abgeschlossen
werden. Also, was ist das Problem von Big Data?
SKALIERBARKEIT
Viele Organisationen
berücksichtigen nicht, wie
schnell ein Big-Data-Projekt
wachsen und sich
entwickeln kann. Big-Data-
Arbeitsbelastungen sind in
der Regel auch
überbelastet so dass es
schwierig ist, Kapazitäten
für Ressourcen
zuzuweisen.
VERWERTBARE
ERKENNTNISSE
Eine zentrale
Herausforderung für die
Datenwissenschaftler Teams
ist es, ein klares Geschäftsziel
und die entsprechenden
Datenquellen zu
identifizieren, um dieses Ziel
zu erfassen und zu
analysieren.
DATEN-
QUALITÄT
Häufige Ursachen für
"schmutzige" Daten
sind
Benutzereingabe-
fehler, duplizierte
Daten und falsche
Datenverknüpfung.
SICHERHEIT
Besondere Herausforderungen
sind:
Benutzerauthentifizierung für
jedes Team und jedes
Teammitglied, das auf die
Daten zugreifen kann
Einschränkung des Zugriffs auf
der Grundlage des Bedarfs des
Nutzers
Datenzugriffs aufzeichnen und
andere Regelungen treffen
ordnungsgemäße Nutzung von
encryprion auf Daten im Transit
und in Ruhe
KOSTEN-
MANAGEMENT
Unternehmen, die Big-
Data-Projekten
verfolgen, müssen sich
der Kosten für
Ausbildung, Wartung und
Ausbauung im Klaren
sein.

BIG DATA PLATFORMEN
Es gibt einige Dinge, die Ihnen sofort auffallen werden, wenn Sie anfangen, sich mit Big
Data zu beschäftigen. Eine dieser Dinge ist die Menge an Open-Source-Softwares. Viele
der Hilfsmittel, die am geläufigsten sind (Bsp.: Hadoop), gehören zu Open Source. Open
Source ist ein guter Weg, um schnelle Innovationen in einem sich schnell entwickelnden
Bereich zu fördern. Sie werden bemerken, dass es eine große Auswahl an Big-Data-
Hilfsmitteln gibt, aus denen Sie wählen können.
Bekannte Systemanbieter wie IBM, HP, Oracle und Dell Produkte bieten zusätzliche
Produkte für den Big-Data-Markt an, in dem viele von ihnen Open-Source-Hilsmittel mit
den eigenen Lösungen kombinieren. Große Cloud-Anbieter wie Amazon und Google
bieten ein breites Spektrum, unter Verwendung von Open-Source-Hilfsmitteln an.
Es gibt Hunderte großer Daten-Hilfsmittel und -Diensten, die nächste Folie verschafft
ihnen einen Überblick über einige dieser Plattformen.
Big Data Plattformen
bestehen im Grunde
genommen aus Big Data
Speichern, Servern
Datenbanken, Management,
Geschäftsanalytik und
anderen Datenverwaltungs-
dienstprogrammen. Sie
unterstützen auch die
kundenspezifische
Entwicklung, Abfrage und
Integration mit anderen
Systemen.

www.smartdata.howwww.facebook.com/smartdatasr

DE- Module 1 - Introduction to Smart Data

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie DE- Module 1 - Introduction to Smart Data

Ähnlich wie DE- Module 1 - Introduction to Smart Data (13)

Mehr von caniceconsulting

Mehr von caniceconsulting (20)

DE- Module 1 - Introduction to Smart Data