SlideShare ist ein Scribd-Unternehmen logo
1 von 43
Downloaden Sie, um offline zu lesen
OLAP UND DATA MINING
Mahmut Tozduman
Sena Kaba
Murat Süzük
Inhalt
1. Zeichen, Data, Datenbank , Data Warehouse, KDD, Data Mining
2. OLAP
• - Begriff
• - Die Geschichte von OLAP
• - Die Regeln von OLAP
• - Das Ziel der Verwendung von OLAP
3. Business Intelligenz und OLAP
4. OLAP und OLTP
5. Begriffe aus der OLAP
6. Architecture
7. MOLAP, ROLAP und HOLAP
8. Schritte von OLAP
9. OLAP Operationen
10. Die Ähnlichkeiten und die Unterschiede zwischen Data Mining und OLAP
11. Vergleichung mit kürzliche Erklärungen
12. Data Mining vs OLAP
13. Können Data Mining und OLAP zusammenarbeiten?
2/43
A) Was sind Zeichen, Data, Information und Wissen?
• Zeichen -> kleinstes Element eines Zeichensystems (011,001, 2 usw.)
• Data -> syntaktisch organisierte Abfolge von Zeichen, zum Zweck einer Verarbeitung codierte
Informationen (39,5)
• Information -> Mit einem Kontext und Bedeutung (Semantik) versehene Daten. ( 39,5 39,5 Grad
Fieber, also im Bett bleiben)
• Wissen -> vernetzte Informationen, die Zusammenhänge repräsentieren. (Ursachen des Fiebers,
Behandlung der Krankheit)
Daten…
• haben in Informationssystemen die
längste Lebensdauer,
• sind strategische Erfolgsfaktoren,
• nehmen ständig an Volumen zu,
• stammen aus unterschiedlichen
Quellen,
• können unterschiedliche Formate
haben.
B) Was ist Datenbank?
• Datenbank oder Datenbanksystem (DBS) ist
eine Daten- Gruppe, die erreicht, verwaltet,
aktualisiert, geträgt werden können. In den
Datenbanken gibt es die Daten, die
miteinader relationale Beziehungen haben.
• Datenbank = Verwaltungssysteme +
Speicherungskomponente für persistente
Daten, die einem bestimmten Zweck dienen.
Quelle: Doğan, Buket, Marmara Universitaet, Veri Tabanı ; Günsur, Murat,
Marmara Universitaet, Einführung in die Datenbanken (2013/ 2014) 5/43
C) Was ist Data
Warehouse?
• ‘ Ein Data Warehouse ist eine fachlich
orientierte, integrierte, zeitvariante und
nichtflüchtige Datenerhebung zur
Unterstützung des Entscheidungsprozesses
des Managements.’ (W. H. Inmon)
• „Mit dem Begriff „Data Warehouse“ i.e.S.
wird generell eine von den operativen DV-
Systemen isolierte Datenbank umschrieben,
die als unternehmensweite Datenbasis für
alle Ausprägungen
managementunterstützender Systeme dient
und durch eine strikte Trennung von
operationalen und
entscheidungsunterstützenden Daten und
Systemen gekennzeichnet ist.“ (Mucksch &
Behme )
6/43
Die vier Eigenschaften
von Data Warehouse
(Nach W.H Inmon)
Eigenschaften des Data Warehouse ;
1.Fachorientierte Strukturierung der Daten
• Operative Daten sind bzgl. der Geschäftsprozesse
strukturiert
• DWH Daten aus verschiedenen Blickwinkeln: z.B.
Unternehmensstruktur, Produktstruktur, Kundenstruktur,
betriebswirtschaftliche Kenngrößen, etc.
2. Integration
• -Daten aus unterschiedlichen Quellen zusammenführen
• -Datenformate vereinheitlichen
• -Inkonsistenten eliminieren
3.Nicht-Volatilität
• -keine Veränderung der Daten im DWH; stabil nach
einmaliger Konstruktion
• -nur lesender Zugriff (zur Datenanalyse)
4. Historienhaltung
• -explizite Konstruktion des Zeitbezugs der Daten
(Timestamps)
* Diese Punkten sind sowohl die Eigenschaften von Data
Warehouse als auch die Unterscheidungen zwischen
Datenbank und Datawarehouse!
7/43
D) KDD (Knowledge
Discover in DB) und
Data Mining
• Knowledge Discovery in Databases (KDD) :
Ist der nicht-triviale Prozess der
Identifizierung gültiger, neuartiger,
potentiell nützlicher und letztlich
verständlicher Muster in Daten.
• Data Mining: Ein Schritt im KDD-Prozess,
der aus bestimmten Data-Mining-
Algorithmen besteht, die unter bestimmten
annehmbaren rechnerischen
Effizienzgrenzen eine bestimmte
Aufzählung von Mustern erzeugen.
• DM eine Teilaufgabe aus KDD
• DM ist die eigentliche Datenanalyse
(überwiegend Verfahren aus dem
Maschinellen Lernen)
• Achtung: Begriffe KDD und DM werden
häufig auch synonym und ohne klare
Unterscheidung gebraucht.
8/43
KDD Schritte (1)
1. Verstehen der Anwendungsdomäne:
Identifikation der verfügbaren Daten
Festlegung des KDD Ziels
2. Zieldatenfestlegung (Selektion)
Festlegung der Datenbanken, Datensätze, Attribute die untersucht werden sollen.
3. Vorverarbeitung und Datenbereinigung
Erkennung und Eliminierung von Datenfehlern (Ausreißern) und von fehlenden Einträgen
4. Datenreduktion und Projektion (Transformation)
Identifikation der nützlichen Attribute für die KDD Aufgabe
Reduktion der Dimension (Attribute)
Berechnung abgeleiteter Attribute
Reduktion der zu bearbeitenden Daten (Sampling)
KDD Schritte (2)
5. Auswahl der Data Mining Aufgabenklasse
um welche Art von Data Mining Aufgabe handelt es sich, z.B. Klassifikation, Regression, Assoziation, Clustering, ...
6. Wahl des Data Mining Algorithmus
für den gewählt Aufgabenklasse: bestimme einen geeigneten Algorithmus
je nach Algorithmus: Bestimmung von Modellparametern
7. Data Mining durchführen
Anwendung des Algorithmus auf den vorverarbeiteten Daten
8. Interpretation
gefundene Muster werden interpretiert
ggf. weitere Iteration und Wiederholung der Schritte 1-7
9. Konsolidierung des KDD Ergebnisses:
Präsentation der Ergebnisse und Dokumentation
2. OLAP (Online
Analytical Process)
Was ist OLAP?
• OLAP ist eine Software-Technologie, die es
ermöglicht Analysten, Manager und
Führungskräfte, um Einblick in Daten zu gewinnen
durch schnellen, konsistenten, interaktiven Zugang
zu einer Vielzahl der möglichen Umgestaltung von
Informationen aus Rohdaten um die
Dimensionalität des Unternehmens
widerzuspiegeln. Wie vom Benutzer verstanden
wird.
• Warum OLAP-Abfragen über Data Warehouse?
• Warehouse sammelt und kombiniert Daten aus
mehreren Quellen
• Das Lager kann die Daten in bestimmten Formaten
organisieren, um OLAP zu unterstützen Abfragen
• OLAP-Abfragen sind komplex und berühren große
Datenmengen
• Sie können die Datenbank für längere Zeit sperren
• Wirkt sich negativ auf alle anderen OLTP-
Transaktionen aus
11/43
Quelle : Mohamed El-Tabakh, Worcester Polytechnic Institute,
(2012)
12/43
B) Die Geschichte von OLAP und Das Zweck
der Verwendung von OLAP
• Die Unternehmen sammeln und speichern mit der Hilfe von entwickelten Teknologien ihre Daten
in Computern. Im Allgemeinen werden die Daten in den Datenbanken verarbeitet und versteckt.
OLTP (Online Transaction Processing) wird um diese tägliche Daten zu suchen, einzufügen und
löschen generiert. Mit der Zeit sind die Menge von Daten mehr schneller gewachst. Deswegen die
Suchen, die Aktualisierungen, die Einfügen und die Löschen von Daten in den Datenbanken
geworden mehr schwieriger. Außerdem könnten diese Daten für die Entscheidungen als Basis
nicht benutzt werden. Deshalb hat datawarehouse angefangt zu verwenden. In Jahre 1993
entwickelt Edgar F. Codd OLAP (Online Analysis Processing) um diesen Problemen zu lösen. Und in
Datawarehouse wird OLAP Teknologie benutzt. Mit dieser Teknologie die Daten, die in
Datenbanken sich befinden, aus den Datenbanken nimmt und zu den «Data-Cube» transformiert.
Deswegen können die Unternehmen schnell Antwortungen nehmen.
B) Das Zweck der Verwendung von OLAP
• Die Data Warehouse, die zu der Unternehmen gehören, beinhalten viele Daten. Und wir wissen,
dass diese Daten sehr groß und sie haben bestimmte Ordnung . Wenn diese Daten allein sind,
haben sie sehr einfachen Bedeutungen.
• Die Mitarbeitern, die man als ‘ Knowledge Worker ’ nennt, benötigen immer auf großen,
ausführlichen Analysen um die Entscheidungen über der Zukunft von Unternehmen zu treffen.
Aber die Mitarbeitern können in den Datenbanken diese Analyse nicht direkt sehen. Weil erstmal
sollte man diese Analyse generieren mit der Hilfe von Daten.
• Man sollte für diese Generierung alle relatioanale Daten zusammen sehen und dann kann man
eine Analysierung machen. Wenn man diese Daten zusammen sehen möchte, sollte man diese
Daten ‘multidimensional’ sehen. OLAP leistet diese Dienstleistung. Mit der OLAP Data Cube
können wir alle Daten multidimensional sehen.
C) Die Regeln von OLAP
12 Regeln nach Codd
• Wegen ihres Pionierstatus werden die Regeln gern zitiert:
• Multidimensionale konzeptionelle Sicht auf die Daten (wichtigstes Kriterium für OLAP)
• Transparenz (klare Trennung zwischen Benutzerschnittstelle und der zu Grunde liegenden Architektur)
• Zugriffsmöglichkeiten (Bezug der Basisdaten aus externen oder operationalen Datenbeständen)
• Konsistente Leistungsfähigkeit der Berichterstattung (möglichst schnelle Reportingfunktionalität)
• Client-Server-Architektur (auf den Verwendungszweck optimierte Lastverteilung)
• Generische Dimensionalität (alle Dimensionen in ihrer Struktur und Funktionalität einheitlich)
• Dynamische Handhabung dünn besetzter Matrizen (dynamische Speicherstrukturanpassung)
• Mehrbenutzerunterstützung
• Unbeschränkte dimensionsübergreifende Operationen
• Intuitive Datenanalyse (direkte Navigation innerhalb der Datenwürfel)
• Flexibles Berichtswesen (Ergebnisse im Report frei anordenbar)
• Unbegrenzte Anzahl von Dimensionen und Konsolidierungsebenen (15 bis 20 Dimensionen mit beliebig vielen Aggregationsstufen)
C) Die Regeln von OLAP
• FASMI-Regeln nach Pendse und Creeth (Vikipedi)
• Pendse und Creeth stellten 1995 unter dem Akronym FASMI fünf herstellerunabhängige Evaluierungsregeln auf,
um damit das OLAP-Konzept zu beschreiben. FASMI steht für „Fast Analysis of Shared Multidimensional
Information“ und besagt im Einzelnen:
• Fast: Abfragen sollen durchschnittlich fünf Sekunden dauern dürfen. Dabei sollen einfache Abfragen nicht länger als
eine Sekunde und nur wenige, komplexere Abfragen bis zu 20 Sekunden Verarbeitungszeit beanspruchen.
• Analysis: Ein OLAP-System soll jegliche benötigte Logik bewältigen können. Dabei soll die Definition einer
komplexeren Analyseabfrage durch den Anwender mit wenig Programmieraufwand zu realisieren sein.
• Shared: Ein OLAP-System soll für den Mehrbenutzerbetrieb ausgelegt sein. Dies bedingt eine Verfügbarkeit
geeigneter Zugriffsschutzmechanismen.
• Multidimensional: Als Hauptkriterium fordern Pendse und Creeth eine mehrdimensionale Strukturierung der Daten
mit voller Unterstützung der Dimensionshierarchien.
• Information: Bei der Analyse sollen einem Anwender alle benötigten Daten transparent zur Verfügung stehen. Eine
Analyse darf nicht durch Beschränkungen des OLAP-Systems beeinflusst werden.
• Zusammenfassend lässt sich feststellen, dass die FASMI-Regeln stärker auf Benutzeranforderungen als auf
technische Anforderungen eingehen. Insgesamt sind sie allerdings weniger spezifisch als die Regeln nach Codd,
deswegen können nach dieser Definition wesentlich mehr Systeme dem OLAP zugeordnet werden.
Nigel Pendse (2006). "OLAP Market". OLAP Report. Retrieved
2008-03-17.
Microsoft Corporation
Hyperion Solutions
CorporationCognos
Business Objects
MicroStrategy
SAP AG
Cartesis (SAP)
Applix
Infor
Oracle CorporationOthers
REVENUE
17/43
3) Business Intelligenz und OLAP
• A)Was ist Business Intelligenz?
Business Intelligenz ist die Gesamtheit
der Prozesse, die Unternehmensdaten
zusammenführen und analysieren.
• B) Die Beziehung zwischen Business
Intelligenz und OLAP
OLAP ist die Schlüsseltechnologie der
Business Intelligenz, die durch eine
multidimensionale Aufbereitung der
Daten eine natürliche Sichtweise auf
die enthaltenen Informationen
ermöglicht.
Erste, OLAP und
OLTP? Was sind Sie?
Wofür?
• OLAP(Online Analytical Processing) und
OLTP(Online-Transaction-Processing )
sind zwei Arten von
Datenbankaktivitäten,
• kein Programm oder System oder
Datenbanktyp .
• Aber OLAP wird auch für die Definition
der Klasse der Software verwendet.
19/43
OLAP vs OLTP
Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite
130
20/43
Begriffe
1. Star Schema
2. Snowflake Schema
3. Fast Constellation
4. Dimension
5. Data Cube
6. Fact Table
7. Dimension Table
8. Fact Attribute
9. Dimension Attribute
21/43
aus der
im Zusammenhang mit OLAP
Dimension,
Measure und
Hierarchy
• Dimension kann alles sein, die
konsequent Daten kategorisieren und
bieten eine bessere Sicht.
• Measures sind numerische Werte, die
addiert werden können, um Bedeutung
zu Ihren Dimensionen zu geben.
• Hierarchy Hierarchie ist das Niveau
Beziehung zwischen den Dimensionen.
Bsp: Tag -> Monat -> Jahr oder Stadt -> Land
-> Kontinent
Der Benutzer kann in Daten navigieren.
Mehr Details oder weniger Details
Wir werden besser verstehen, mit
Beispielen, die auf den nächsten Seiten.
Han - Data Mining Concepts and Techniques 3rd Edition - 201222/43
Star Schema
Das häufigste
Modellierungsparadigma ist das Star
Schema, in dem das Datenlager eine
große zentrale Tabelle (Fakt Table)
enthält, die den Großteil der Daten
ohne Redundanz enthält, und einen
Satz kleinerer begleitender Tabellen
(Dimension Table), eine für jede
Dimension. Das Schema gleicht
einem Star Burst, wobei die
Dimension Table in einem radialen
Muster um die zentrale Fakt Table
herum angezeigt werden.
Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 13923/43
Snowflake Schema
Wenn Dimension Table mit anderen
Tabellen in einem "Star-Schema"
zusammenhängen, wird es als
Snowflake-Schema genannt.
Es ist wie komplexe Version von Star
Schema
24/43
Fact constellation
Wenn mehrere Fact Tables
Dimension Tables teilen, wird es Fact
Constellation genannt.
wie viele verbunden "Star Schema"
25/43
Fact und
Dimension Table
Fact Table enthält die Namen der
Facts oder Maßnahmen sowie keys
zu den jeweiligen Dimension Table.
Dimension Table enthält Dimension
Daten.
Von "Viele zu vielen",
Zu "Eins zu vielen"
26/43
Fact und
Dimension
Attribute
Wenn ein Attribut eine Dimension
hat und Daten von dort kommen,
wird es ein Dimension Attribute
genannt.
Aber wenn ein Attribut nicht mit
irgendeiner der Table verknüpft ist,
wird es Fact Attribute genannt.
27/43
Data Cube
Data Cube ermöglicht es, Daten in
mehreren Dimensionen zu
modellieren und zu betrachten. Sie
wird durch Dimensionen und Fakten
definiert. [1]
Ein OLAP-Cube ist ein Begriff, der sich
typischerweise auf ein
mehrdimensionales Array von Daten
bezieht [2]
Es muss nicht 3D sein, es kann 4, 5
etc. Aber der menschliche Geist ist
nicht wirksam nach 3.
[1]Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 136 ; [2]Gray, Jim; Bosworth, Adam; Layman, Andrew; Pirahesh, Hamid (1996). "Data Cube: A Relational
Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals". Proceedings of the International Conference on Data Engineering (ICDE)28/43
4
3
Data Cube Virtualisation
Virtualisierung ist wichtig für das
Verständnis der Analyse besser. OLAP-
Server verfügt über Tools für die
Virtualisierung.
29/43
A Multitiered
Architecture
1. Bottom Tier ist ein Warehouse
Datenbank Server, der fast immer ein
relationales Datenbanksystem ist.
Back-End-Tools und Dienstprogramme
werden verwendet, um Daten in die
untere Ebene aus operativen
Datenbanken oder anderen externen
Quellen zu füttern
2. R-OLAP / M-OLAP / H-OLAP
(Auf der nächsten Seite)
3. Top Tier ist eine Front-End Client Tier,
die Abfrage- und Berichtswerkzeuge,
Analysetools und / oder Data Mining-
Tools enthält
Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 13130/43
ROLAP, MOLAP und HOLAP
• MOLAP ist der am meisten genutzte Speichertyp. Seine entworfen,
um maximale Abfrageleistung den Benutzern anzubieten. Daten und
Aggregationen werden im Cube optimiert gespeichert. Die Daten im
Cube werden nur aktualisiert, wenn der Cube verarbeitet wird, also
ist die Latenz hoch.
• ROLAP hat nicht den hohen Latenznachteil von MOLAP. Mit ROLAP
werden die Daten und Aggregationen im relationalen Format
gespeichert. Dies bedeutet, dass es keine Latenz zwischen der
relationalen Quellendatenbank und dem Cube geben wird. Nachteil
dieser Modus ist die Leistung, diese Art gibt die schlechteste Abfrage
Leistung, weil keine Objekte profitieren von mehrdimensionalen
Speicher.
• HOLAP ist ein Speichertyp zwischen MOLAP und ROLAP. Die Daten
werden im relationalen Format (ROLAP) gespeichert, so dass es auch
keine Latenzzeit mit diesem Speichertyp gibt. Aggregationen
hingegen werden im Multi-dimensionalen Format (MOLAP) im Cube
gespeichert, um eine bessere Abfrageleistung zu erzielen. SSAS wird
auf Benachrichtigungen von der Quell-relationalen Datenbank zu
hören, wenn Änderungen vorgenommen werden, erhalten SSAS eine
Benachrichtigung und wird die Aggregationen wieder verarbeiten.
Mit diesem Modus ist es möglich, den Nutzern eine Latenz von Null
anzubieten, jedoch mit einer mittleren Abfrageleistung im Vergleich
zu MOLAP und ROLAP.
Datenspeicherung
Aggregationsla
gerung
Abfrageleistung Latenz
MOLAP Kubus Kubus Hoch Hoch
HOLAP
Relationale
Datenbank
Kubus Mittel Keiner
ROLAP
Relationale
Datenbank Relationale
Datenbank
Niedrig Keiner
Bespiel für OLAP Server;
IBM Cognos TM1, Essbase, icCube, Jedox OLAP Server, Infor BI OLAP Server, Microsoft Analysis Services, MicroStrategy Intelligence Server, Mondrian OLAP server, Oracle Database OLAP Option , SAS OLAP Server
31/43
Schritte von OLAP
A typical query
1. Join; Beitritt der Beziehungen so wachsende Informationen.
2. Filter; Filtern von verbundenen Daten.
Bsp: Zwischen 2015-2016
3. Group; Auch nach dem Filtern gibt es Millionen Zeile.
Bsp: Nicht alle Verkaufsdatenzeilen (Millionen Zeile) Gruppiert nach Zweigstellen. (nur ein
paar)
4. Aggregate; Während der Gruppierung einige mathematische Funktionen benötigt werden.
Daten gruppiert nach Branchen, aber Umsatzmenge?
Wir brauchen Funktion wie Average () Count () Sum ()
OLAP Operationen
• Durch Drill Down / Up kann der Benutzer zwischen
verschiedenen Datenebenen navigieren, die von den
meisten zusammengefassten (bis zu den
detailliertesten (unten) [1]
• Dice Operation erzeugt einen Subcube, indem der
Analytiker bestimmte Werte von mehreren
Dimensionen auswählen kann. [2]
• Slice ist der Akt der Auswahl eines rechteckigen
Teilmenge eines Würfels, indem er einen einzelnen
Wert für eine seiner Dimensionen, die Schaffung eines
neuen Würfels mit einer weniger Dimension [1]
• Pivot erlaubt einem Analytiker, den Würfel im Raum zu
drehen, um seine verschiedenen Gesichter zu sehen [1]
[1]OLAP and OLAP Server Definitions". The OLAP Council 1995 ; [2]Glossary of Data Mining Terms".
University of Alberta 1999 Han - Data Mining Concepts and Techniques 3rd Edition 2012 33/43
Die Ähnlichkeiten und die
Unterschiede zwischen
Data Mining und OLAP
• Data Mining und OLAP, beide sind zwei
der gemeinsamen Business Intelligence
(BI) Technologien.
• Business Intelligence bezieht sich auf
computerbasierte Methoden zur
Identifizierung und nützliche
Informationen aus Geschäftsdaten zu
extrahieren.
34/43
Vergleichung mit
kürzliche Erklärungen
• OLAP ist ein Design-Paradigma, ein
Weg, um Informationen aus dem
physischen Datenspeicher zu suchen.
• Es aggregiert Informationen aus
mehreren Systemen und speichert sie in
einem mehrdimensionalen Format.
• Data Mining gräbt Informationen
innerhalb und außerhalb der
Organisation, um bei der Beantwortung
von Geschäftsfragen zu helfen
• Sie umfassen Verhältnisse und
Algorithmen wie Entscheidungsbäume,
nächste Nachbar-Klassifizierung und
Wandgemeinschaften, zusammen mit
Clustering von Daten.
35/43
Data Mining vs OLAP
• Obwohl es offensichtlich ist, dass Data
Mining und OLAP ähnlich sind, weil sie
auf Daten arbeiten, um Intelligenz zu
gewinnen, kommt der
Hauptunterschied davon, wie sie auf
Daten arbeiten.
36/43
Data Mining vs OLAP
• OLAP und Data Mining werden
verwendet, um verschiedene Arten von
analytischen Problemen zu lösen. Zum
Beispiel, OLAP fasst Daten zusammen
und macht Prognosen und es
beantwortet operative Fragen wie "Was
sind die durchschnittlichen Verkäufe
von Autos, nach Region und Jahr?".
37/43
Data Mining vs OLAP
• Data Mining erkennt verborgene Muster
in Daten und arbeitet auf einer
detaillierten Ebene statt einer
Zusammenfassung Ebene.
• Zum Beispiel in einer Telekom-Industrie,
Data Mining würde Fragen wie "Wer ist
wahrscheinlich, Dienstleister
verschieben und was sind die Gründe
dafür? Beantworten.
38/43
Vergleichung zum
Benutzer
• Die Kunden für OLAP und Data Mining
sind unterschiedlich. In einer typischen
Organisation wird OLAP von den
regulären Front- und Backoffice-
Mitarbeitern genutzt.
• Data mining is used by business
strategists. The strategists base their
business moves on the information
thrown up by the data mine.
39/43
Tabellarische Darstellung
Quellen:
http://www.elml.uzh.ch/preview/fois/DSSII/de/html/le3_learni
ngObject4.html (last accessed on 18/12/2016)
OLAP Data Mining
Top-down, abfragegesteuert (query-driven) Bottom-up, entdeckungsgesteuert (discovery-
driven)
Wiederholtes Testen von Theorien, die vom
Benutzer aufgestellt wurden
Benötigt keine Annahmen
Erfordert viel Interaktion zwischen Benutzer und
Datenbank
Keine intensive Interaktion zwischen Benutzer und
Datenbank erforderlich
Benutzer muss eine klare Vorstellung von den
Informationen, nach denen er sucht, haben
Läuft praktisch automatisch ab
Benutzer ist in ständiger Interaktion mit dem
System
Benutzerinteraktion beschränkt sich auf die
Auswahl des Data-Mining-Algorithmus und der
geeigneten Parameter
Beantwortet Fragen wie "Ist das richtig?" Beantwortet Fragen wie " Wieso passiert das?
Und was könnte passieren, wenn…?"
40/43
Können Data Mining
und OLAP
zusammenarbeiten?
• Data Mining ist geeignet für eine
Organisation, die eine zukünftige
Perspektive auf Dinge will. Aber für eine
Organisation, die lediglich ihre
betriebliche Effizienz verbessern will,
kann OLAP verwendet werden.
41/43
Können Data Mining
und OLAP
zusammenarbeiten?
• OLAP und Data Mining können sich
gegenseitig ergänzen. Zum Beispiel,
während OLAP Probleme mit dem
Verkauf eines Produkts in einer
bestimmten Region punktiert, könnte
Data Mining verwendet werden, um
Einblick in das Verhalten der einzelnen
Kunden zu gewinnen. Ähnlich, nach
Data Mining prognostiziert etwas wie
eine 5%’ige Umsatzsteigerung, könnte
OLAP verwendet werden, um das
Nettoeinkommen zu verfolgen.
42/43
43/43
Mahmut Tozduman – Sena Kaba – Murat Süzük

Weitere ähnliche Inhalte

Ähnlich wie Data Mining und OLAP

Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftISR Information Products AG
 
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...AvePoint
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesOPITZ CONSULTING Deutschland
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewOMM Solutions GmbH
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business IntelligenceDataLion
 
Heterogene Daten(-strukturen) in der Oracle Datenbank
Heterogene Daten(-strukturen) in der Oracle DatenbankHeterogene Daten(-strukturen) in der Oracle Datenbank
Heterogene Daten(-strukturen) in der Oracle DatenbankUlrike Schwinn
 
SAP_Basis_Klassisch.pdf
SAP_Basis_Klassisch.pdfSAP_Basis_Klassisch.pdf
SAP_Basis_Klassisch.pdfCazLP
 
Oracle Database 12c Release 2
Oracle Database 12c Release 2 Oracle Database 12c Release 2
Oracle Database 12c Release 2 oraclebudb
 
Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2Ulrike Schwinn
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Harald Erb
 
TFF2023 - Navigating Tourism Data Nexus
TFF2023 - Navigating Tourism Data NexusTFF2023 - Navigating Tourism Data Nexus
TFF2023 - Navigating Tourism Data NexusTourismFastForward
 
Skalierung & Performance
Skalierung & PerformanceSkalierung & Performance
Skalierung & Performanceglembotzky
 
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...Markus Flechtner
 
Datenanalyse in der Praxis
Datenanalyse in der PraxisDatenanalyse in der Praxis
Datenanalyse in der PraxisYvette Teiken
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtIBsolution GmbH
 
Roadshow Oracle Database 12c: News & Features
Roadshow Oracle Database 12c: News & FeaturesRoadshow Oracle Database 12c: News & Features
Roadshow Oracle Database 12c: News & FeaturesDigicomp Academy AG
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger
 
Datenqualitätsmanagement heute und morgen
Datenqualitätsmanagement heute und morgenDatenqualitätsmanagement heute und morgen
Datenqualitätsmanagement heute und morgenVizlib Ltd.
 

Ähnlich wie Data Mining und OLAP (20)

Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
 
ODAaaS – Open Data Analytics as a Service
ODAaaS – Open Data Analytics as a ServiceODAaaS – Open Data Analytics as a Service
ODAaaS – Open Data Analytics as a Service
 
Heterogene Daten(-strukturen) in der Oracle Datenbank
Heterogene Daten(-strukturen) in der Oracle DatenbankHeterogene Daten(-strukturen) in der Oracle Datenbank
Heterogene Daten(-strukturen) in der Oracle Datenbank
 
SAP_Basis_Klassisch.pdf
SAP_Basis_Klassisch.pdfSAP_Basis_Klassisch.pdf
SAP_Basis_Klassisch.pdf
 
Oracle Database 12c Release 2
Oracle Database 12c Release 2 Oracle Database 12c Release 2
Oracle Database 12c Release 2
 
Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
 
TFF2023 - Navigating Tourism Data Nexus
TFF2023 - Navigating Tourism Data NexusTFF2023 - Navigating Tourism Data Nexus
TFF2023 - Navigating Tourism Data Nexus
 
Skalierung & Performance
Skalierung & PerformanceSkalierung & Performance
Skalierung & Performance
 
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
 
Datenanalyse in der Praxis
Datenanalyse in der PraxisDatenanalyse in der Praxis
Datenanalyse in der Praxis
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedacht
 
Roadshow Oracle Database 12c: News & Features
Roadshow Oracle Database 12c: News & FeaturesRoadshow Oracle Database 12c: News & Features
Roadshow Oracle Database 12c: News & Features
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
Datenqualitätsmanagement heute und morgen
Datenqualitätsmanagement heute und morgenDatenqualitätsmanagement heute und morgen
Datenqualitätsmanagement heute und morgen
 

Mehr von murat9393

Was ist Kanban? Kanban und Scrum
Was ist Kanban? Kanban und ScrumWas ist Kanban? Kanban und Scrum
Was ist Kanban? Kanban und Scrummurat9393
 
Mustererkennug, knn und deep dream
Mustererkennug, knn und deep dream Mustererkennug, knn und deep dream
Mustererkennug, knn und deep dream murat9393
 
LagerBestand Simulation und Pre.
LagerBestand Simulation und Pre.LagerBestand Simulation und Pre.
LagerBestand Simulation und Pre.murat9393
 
E-Ticaret ve Alışveriş Sitelerini Tasarım Özellikleri ve İşlevselliği
E-Ticaret ve Alışveriş Sitelerini Tasarım Özellikleri ve İşlevselliğiE-Ticaret ve Alışveriş Sitelerini Tasarım Özellikleri ve İşlevselliği
E-Ticaret ve Alışveriş Sitelerini Tasarım Özellikleri ve İşlevselliğimurat9393
 
6 Sigma Verfahren
6 Sigma Verfahren 6 Sigma Verfahren
6 Sigma Verfahren murat9393
 
Wissensgesellschaft und die Türkei
Wissensgesellschaft und die TürkeiWissensgesellschaft und die Türkei
Wissensgesellschaft und die Türkeimurat9393
 
SQL und Business Intelligence
SQL und Business IntelligenceSQL und Business Intelligence
SQL und Business Intelligencemurat9393
 

Mehr von murat9393 (8)

Was ist Kanban? Kanban und Scrum
Was ist Kanban? Kanban und ScrumWas ist Kanban? Kanban und Scrum
Was ist Kanban? Kanban und Scrum
 
Mustererkennug, knn und deep dream
Mustererkennug, knn und deep dream Mustererkennug, knn und deep dream
Mustererkennug, knn und deep dream
 
LagerBestand Simulation und Pre.
LagerBestand Simulation und Pre.LagerBestand Simulation und Pre.
LagerBestand Simulation und Pre.
 
Forecasting
ForecastingForecasting
Forecasting
 
E-Ticaret ve Alışveriş Sitelerini Tasarım Özellikleri ve İşlevselliği
E-Ticaret ve Alışveriş Sitelerini Tasarım Özellikleri ve İşlevselliğiE-Ticaret ve Alışveriş Sitelerini Tasarım Özellikleri ve İşlevselliği
E-Ticaret ve Alışveriş Sitelerini Tasarım Özellikleri ve İşlevselliği
 
6 Sigma Verfahren
6 Sigma Verfahren 6 Sigma Verfahren
6 Sigma Verfahren
 
Wissensgesellschaft und die Türkei
Wissensgesellschaft und die TürkeiWissensgesellschaft und die Türkei
Wissensgesellschaft und die Türkei
 
SQL und Business Intelligence
SQL und Business IntelligenceSQL und Business Intelligence
SQL und Business Intelligence
 

Kürzlich hochgeladen

Ein Telefongespräch. Ein Telefongespräch. Ein Telefongespräch
Ein Telefongespräch. Ein Telefongespräch. Ein TelefongesprächEin Telefongespräch. Ein Telefongespräch. Ein Telefongespräch
Ein Telefongespräch. Ein Telefongespräch. Ein TelefongesprächOlenaKarlsTkachenko
 
Konjunktiv II - Theorie undd Beispiele - DaF mit Power
Konjunktiv II - Theorie undd Beispiele - DaF mit PowerKonjunktiv II - Theorie undd Beispiele - DaF mit Power
Konjunktiv II - Theorie undd Beispiele - DaF mit PowerMaria Vaz König
 
Presentation Endstation Dingden, Razzia von Rotterdam
Presentation Endstation Dingden, Razzia von RotterdamPresentation Endstation Dingden, Razzia von Rotterdam
Presentation Endstation Dingden, Razzia von RotterdamEus van Hove
 
Stadt Popasna.Stadt PopasnaStadt Popasna
Stadt Popasna.Stadt PopasnaStadt PopasnaStadt Popasna.Stadt PopasnaStadt Popasna
Stadt Popasna.Stadt PopasnaStadt PopasnaOlenaKarlsTkachenko
 
Kurzbeschreibung Schreibtools für die Toolbox.pdf
Kurzbeschreibung Schreibtools für die Toolbox.pdfKurzbeschreibung Schreibtools für die Toolbox.pdf
Kurzbeschreibung Schreibtools für die Toolbox.pdfHenning Urs
 

Kürzlich hochgeladen (6)

Ein Telefongespräch. Ein Telefongespräch. Ein Telefongespräch
Ein Telefongespräch. Ein Telefongespräch. Ein TelefongesprächEin Telefongespräch. Ein Telefongespräch. Ein Telefongespräch
Ein Telefongespräch. Ein Telefongespräch. Ein Telefongespräch
 
Konjunktiv II - Theorie undd Beispiele - DaF mit Power
Konjunktiv II - Theorie undd Beispiele - DaF mit PowerKonjunktiv II - Theorie undd Beispiele - DaF mit Power
Konjunktiv II - Theorie undd Beispiele - DaF mit Power
 
Presentation Endstation Dingden, Razzia von Rotterdam
Presentation Endstation Dingden, Razzia von RotterdamPresentation Endstation Dingden, Razzia von Rotterdam
Presentation Endstation Dingden, Razzia von Rotterdam
 
Díptic PFI pfi pfi pfi pfi pfi pfi pf.pdf
Díptic PFI pfi pfi pfi pfi pfi pfi pf.pdfDíptic PFI pfi pfi pfi pfi pfi pfi pf.pdf
Díptic PFI pfi pfi pfi pfi pfi pfi pf.pdf
 
Stadt Popasna.Stadt PopasnaStadt Popasna
Stadt Popasna.Stadt PopasnaStadt PopasnaStadt Popasna.Stadt PopasnaStadt Popasna
Stadt Popasna.Stadt PopasnaStadt Popasna
 
Kurzbeschreibung Schreibtools für die Toolbox.pdf
Kurzbeschreibung Schreibtools für die Toolbox.pdfKurzbeschreibung Schreibtools für die Toolbox.pdf
Kurzbeschreibung Schreibtools für die Toolbox.pdf
 

Data Mining und OLAP

  • 1. OLAP UND DATA MINING Mahmut Tozduman Sena Kaba Murat Süzük
  • 2. Inhalt 1. Zeichen, Data, Datenbank , Data Warehouse, KDD, Data Mining 2. OLAP • - Begriff • - Die Geschichte von OLAP • - Die Regeln von OLAP • - Das Ziel der Verwendung von OLAP 3. Business Intelligenz und OLAP 4. OLAP und OLTP 5. Begriffe aus der OLAP 6. Architecture 7. MOLAP, ROLAP und HOLAP 8. Schritte von OLAP 9. OLAP Operationen 10. Die Ähnlichkeiten und die Unterschiede zwischen Data Mining und OLAP 11. Vergleichung mit kürzliche Erklärungen 12. Data Mining vs OLAP 13. Können Data Mining und OLAP zusammenarbeiten? 2/43
  • 3. A) Was sind Zeichen, Data, Information und Wissen? • Zeichen -> kleinstes Element eines Zeichensystems (011,001, 2 usw.) • Data -> syntaktisch organisierte Abfolge von Zeichen, zum Zweck einer Verarbeitung codierte Informationen (39,5) • Information -> Mit einem Kontext und Bedeutung (Semantik) versehene Daten. ( 39,5 39,5 Grad Fieber, also im Bett bleiben) • Wissen -> vernetzte Informationen, die Zusammenhänge repräsentieren. (Ursachen des Fiebers, Behandlung der Krankheit)
  • 4. Daten… • haben in Informationssystemen die längste Lebensdauer, • sind strategische Erfolgsfaktoren, • nehmen ständig an Volumen zu, • stammen aus unterschiedlichen Quellen, • können unterschiedliche Formate haben.
  • 5. B) Was ist Datenbank? • Datenbank oder Datenbanksystem (DBS) ist eine Daten- Gruppe, die erreicht, verwaltet, aktualisiert, geträgt werden können. In den Datenbanken gibt es die Daten, die miteinader relationale Beziehungen haben. • Datenbank = Verwaltungssysteme + Speicherungskomponente für persistente Daten, die einem bestimmten Zweck dienen. Quelle: Doğan, Buket, Marmara Universitaet, Veri Tabanı ; Günsur, Murat, Marmara Universitaet, Einführung in die Datenbanken (2013/ 2014) 5/43
  • 6. C) Was ist Data Warehouse? • ‘ Ein Data Warehouse ist eine fachlich orientierte, integrierte, zeitvariante und nichtflüchtige Datenerhebung zur Unterstützung des Entscheidungsprozesses des Managements.’ (W. H. Inmon) • „Mit dem Begriff „Data Warehouse“ i.e.S. wird generell eine von den operativen DV- Systemen isolierte Datenbank umschrieben, die als unternehmensweite Datenbasis für alle Ausprägungen managementunterstützender Systeme dient und durch eine strikte Trennung von operationalen und entscheidungsunterstützenden Daten und Systemen gekennzeichnet ist.“ (Mucksch & Behme ) 6/43
  • 7. Die vier Eigenschaften von Data Warehouse (Nach W.H Inmon) Eigenschaften des Data Warehouse ; 1.Fachorientierte Strukturierung der Daten • Operative Daten sind bzgl. der Geschäftsprozesse strukturiert • DWH Daten aus verschiedenen Blickwinkeln: z.B. Unternehmensstruktur, Produktstruktur, Kundenstruktur, betriebswirtschaftliche Kenngrößen, etc. 2. Integration • -Daten aus unterschiedlichen Quellen zusammenführen • -Datenformate vereinheitlichen • -Inkonsistenten eliminieren 3.Nicht-Volatilität • -keine Veränderung der Daten im DWH; stabil nach einmaliger Konstruktion • -nur lesender Zugriff (zur Datenanalyse) 4. Historienhaltung • -explizite Konstruktion des Zeitbezugs der Daten (Timestamps) * Diese Punkten sind sowohl die Eigenschaften von Data Warehouse als auch die Unterscheidungen zwischen Datenbank und Datawarehouse! 7/43
  • 8. D) KDD (Knowledge Discover in DB) und Data Mining • Knowledge Discovery in Databases (KDD) : Ist der nicht-triviale Prozess der Identifizierung gültiger, neuartiger, potentiell nützlicher und letztlich verständlicher Muster in Daten. • Data Mining: Ein Schritt im KDD-Prozess, der aus bestimmten Data-Mining- Algorithmen besteht, die unter bestimmten annehmbaren rechnerischen Effizienzgrenzen eine bestimmte Aufzählung von Mustern erzeugen. • DM eine Teilaufgabe aus KDD • DM ist die eigentliche Datenanalyse (überwiegend Verfahren aus dem Maschinellen Lernen) • Achtung: Begriffe KDD und DM werden häufig auch synonym und ohne klare Unterscheidung gebraucht. 8/43
  • 9. KDD Schritte (1) 1. Verstehen der Anwendungsdomäne: Identifikation der verfügbaren Daten Festlegung des KDD Ziels 2. Zieldatenfestlegung (Selektion) Festlegung der Datenbanken, Datensätze, Attribute die untersucht werden sollen. 3. Vorverarbeitung und Datenbereinigung Erkennung und Eliminierung von Datenfehlern (Ausreißern) und von fehlenden Einträgen 4. Datenreduktion und Projektion (Transformation) Identifikation der nützlichen Attribute für die KDD Aufgabe Reduktion der Dimension (Attribute) Berechnung abgeleiteter Attribute Reduktion der zu bearbeitenden Daten (Sampling)
  • 10. KDD Schritte (2) 5. Auswahl der Data Mining Aufgabenklasse um welche Art von Data Mining Aufgabe handelt es sich, z.B. Klassifikation, Regression, Assoziation, Clustering, ... 6. Wahl des Data Mining Algorithmus für den gewählt Aufgabenklasse: bestimme einen geeigneten Algorithmus je nach Algorithmus: Bestimmung von Modellparametern 7. Data Mining durchführen Anwendung des Algorithmus auf den vorverarbeiteten Daten 8. Interpretation gefundene Muster werden interpretiert ggf. weitere Iteration und Wiederholung der Schritte 1-7 9. Konsolidierung des KDD Ergebnisses: Präsentation der Ergebnisse und Dokumentation
  • 11. 2. OLAP (Online Analytical Process) Was ist OLAP? • OLAP ist eine Software-Technologie, die es ermöglicht Analysten, Manager und Führungskräfte, um Einblick in Daten zu gewinnen durch schnellen, konsistenten, interaktiven Zugang zu einer Vielzahl der möglichen Umgestaltung von Informationen aus Rohdaten um die Dimensionalität des Unternehmens widerzuspiegeln. Wie vom Benutzer verstanden wird. • Warum OLAP-Abfragen über Data Warehouse? • Warehouse sammelt und kombiniert Daten aus mehreren Quellen • Das Lager kann die Daten in bestimmten Formaten organisieren, um OLAP zu unterstützen Abfragen • OLAP-Abfragen sind komplex und berühren große Datenmengen • Sie können die Datenbank für längere Zeit sperren • Wirkt sich negativ auf alle anderen OLTP- Transaktionen aus 11/43
  • 12. Quelle : Mohamed El-Tabakh, Worcester Polytechnic Institute, (2012) 12/43
  • 13. B) Die Geschichte von OLAP und Das Zweck der Verwendung von OLAP • Die Unternehmen sammeln und speichern mit der Hilfe von entwickelten Teknologien ihre Daten in Computern. Im Allgemeinen werden die Daten in den Datenbanken verarbeitet und versteckt. OLTP (Online Transaction Processing) wird um diese tägliche Daten zu suchen, einzufügen und löschen generiert. Mit der Zeit sind die Menge von Daten mehr schneller gewachst. Deswegen die Suchen, die Aktualisierungen, die Einfügen und die Löschen von Daten in den Datenbanken geworden mehr schwieriger. Außerdem könnten diese Daten für die Entscheidungen als Basis nicht benutzt werden. Deshalb hat datawarehouse angefangt zu verwenden. In Jahre 1993 entwickelt Edgar F. Codd OLAP (Online Analysis Processing) um diesen Problemen zu lösen. Und in Datawarehouse wird OLAP Teknologie benutzt. Mit dieser Teknologie die Daten, die in Datenbanken sich befinden, aus den Datenbanken nimmt und zu den «Data-Cube» transformiert. Deswegen können die Unternehmen schnell Antwortungen nehmen.
  • 14. B) Das Zweck der Verwendung von OLAP • Die Data Warehouse, die zu der Unternehmen gehören, beinhalten viele Daten. Und wir wissen, dass diese Daten sehr groß und sie haben bestimmte Ordnung . Wenn diese Daten allein sind, haben sie sehr einfachen Bedeutungen. • Die Mitarbeitern, die man als ‘ Knowledge Worker ’ nennt, benötigen immer auf großen, ausführlichen Analysen um die Entscheidungen über der Zukunft von Unternehmen zu treffen. Aber die Mitarbeitern können in den Datenbanken diese Analyse nicht direkt sehen. Weil erstmal sollte man diese Analyse generieren mit der Hilfe von Daten. • Man sollte für diese Generierung alle relatioanale Daten zusammen sehen und dann kann man eine Analysierung machen. Wenn man diese Daten zusammen sehen möchte, sollte man diese Daten ‘multidimensional’ sehen. OLAP leistet diese Dienstleistung. Mit der OLAP Data Cube können wir alle Daten multidimensional sehen.
  • 15. C) Die Regeln von OLAP 12 Regeln nach Codd • Wegen ihres Pionierstatus werden die Regeln gern zitiert: • Multidimensionale konzeptionelle Sicht auf die Daten (wichtigstes Kriterium für OLAP) • Transparenz (klare Trennung zwischen Benutzerschnittstelle und der zu Grunde liegenden Architektur) • Zugriffsmöglichkeiten (Bezug der Basisdaten aus externen oder operationalen Datenbeständen) • Konsistente Leistungsfähigkeit der Berichterstattung (möglichst schnelle Reportingfunktionalität) • Client-Server-Architektur (auf den Verwendungszweck optimierte Lastverteilung) • Generische Dimensionalität (alle Dimensionen in ihrer Struktur und Funktionalität einheitlich) • Dynamische Handhabung dünn besetzter Matrizen (dynamische Speicherstrukturanpassung) • Mehrbenutzerunterstützung • Unbeschränkte dimensionsübergreifende Operationen • Intuitive Datenanalyse (direkte Navigation innerhalb der Datenwürfel) • Flexibles Berichtswesen (Ergebnisse im Report frei anordenbar) • Unbegrenzte Anzahl von Dimensionen und Konsolidierungsebenen (15 bis 20 Dimensionen mit beliebig vielen Aggregationsstufen)
  • 16. C) Die Regeln von OLAP • FASMI-Regeln nach Pendse und Creeth (Vikipedi) • Pendse und Creeth stellten 1995 unter dem Akronym FASMI fünf herstellerunabhängige Evaluierungsregeln auf, um damit das OLAP-Konzept zu beschreiben. FASMI steht für „Fast Analysis of Shared Multidimensional Information“ und besagt im Einzelnen: • Fast: Abfragen sollen durchschnittlich fünf Sekunden dauern dürfen. Dabei sollen einfache Abfragen nicht länger als eine Sekunde und nur wenige, komplexere Abfragen bis zu 20 Sekunden Verarbeitungszeit beanspruchen. • Analysis: Ein OLAP-System soll jegliche benötigte Logik bewältigen können. Dabei soll die Definition einer komplexeren Analyseabfrage durch den Anwender mit wenig Programmieraufwand zu realisieren sein. • Shared: Ein OLAP-System soll für den Mehrbenutzerbetrieb ausgelegt sein. Dies bedingt eine Verfügbarkeit geeigneter Zugriffsschutzmechanismen. • Multidimensional: Als Hauptkriterium fordern Pendse und Creeth eine mehrdimensionale Strukturierung der Daten mit voller Unterstützung der Dimensionshierarchien. • Information: Bei der Analyse sollen einem Anwender alle benötigten Daten transparent zur Verfügung stehen. Eine Analyse darf nicht durch Beschränkungen des OLAP-Systems beeinflusst werden. • Zusammenfassend lässt sich feststellen, dass die FASMI-Regeln stärker auf Benutzeranforderungen als auf technische Anforderungen eingehen. Insgesamt sind sie allerdings weniger spezifisch als die Regeln nach Codd, deswegen können nach dieser Definition wesentlich mehr Systeme dem OLAP zugeordnet werden.
  • 17. Nigel Pendse (2006). "OLAP Market". OLAP Report. Retrieved 2008-03-17. Microsoft Corporation Hyperion Solutions CorporationCognos Business Objects MicroStrategy SAP AG Cartesis (SAP) Applix Infor Oracle CorporationOthers REVENUE 17/43
  • 18. 3) Business Intelligenz und OLAP • A)Was ist Business Intelligenz? Business Intelligenz ist die Gesamtheit der Prozesse, die Unternehmensdaten zusammenführen und analysieren. • B) Die Beziehung zwischen Business Intelligenz und OLAP OLAP ist die Schlüsseltechnologie der Business Intelligenz, die durch eine multidimensionale Aufbereitung der Daten eine natürliche Sichtweise auf die enthaltenen Informationen ermöglicht.
  • 19. Erste, OLAP und OLTP? Was sind Sie? Wofür? • OLAP(Online Analytical Processing) und OLTP(Online-Transaction-Processing ) sind zwei Arten von Datenbankaktivitäten, • kein Programm oder System oder Datenbanktyp . • Aber OLAP wird auch für die Definition der Klasse der Software verwendet. 19/43
  • 20. OLAP vs OLTP Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 130 20/43
  • 21. Begriffe 1. Star Schema 2. Snowflake Schema 3. Fast Constellation 4. Dimension 5. Data Cube 6. Fact Table 7. Dimension Table 8. Fact Attribute 9. Dimension Attribute 21/43 aus der im Zusammenhang mit OLAP
  • 22. Dimension, Measure und Hierarchy • Dimension kann alles sein, die konsequent Daten kategorisieren und bieten eine bessere Sicht. • Measures sind numerische Werte, die addiert werden können, um Bedeutung zu Ihren Dimensionen zu geben. • Hierarchy Hierarchie ist das Niveau Beziehung zwischen den Dimensionen. Bsp: Tag -> Monat -> Jahr oder Stadt -> Land -> Kontinent Der Benutzer kann in Daten navigieren. Mehr Details oder weniger Details Wir werden besser verstehen, mit Beispielen, die auf den nächsten Seiten. Han - Data Mining Concepts and Techniques 3rd Edition - 201222/43
  • 23. Star Schema Das häufigste Modellierungsparadigma ist das Star Schema, in dem das Datenlager eine große zentrale Tabelle (Fakt Table) enthält, die den Großteil der Daten ohne Redundanz enthält, und einen Satz kleinerer begleitender Tabellen (Dimension Table), eine für jede Dimension. Das Schema gleicht einem Star Burst, wobei die Dimension Table in einem radialen Muster um die zentrale Fakt Table herum angezeigt werden. Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 13923/43
  • 24. Snowflake Schema Wenn Dimension Table mit anderen Tabellen in einem "Star-Schema" zusammenhängen, wird es als Snowflake-Schema genannt. Es ist wie komplexe Version von Star Schema 24/43
  • 25. Fact constellation Wenn mehrere Fact Tables Dimension Tables teilen, wird es Fact Constellation genannt. wie viele verbunden "Star Schema" 25/43
  • 26. Fact und Dimension Table Fact Table enthält die Namen der Facts oder Maßnahmen sowie keys zu den jeweiligen Dimension Table. Dimension Table enthält Dimension Daten. Von "Viele zu vielen", Zu "Eins zu vielen" 26/43
  • 27. Fact und Dimension Attribute Wenn ein Attribut eine Dimension hat und Daten von dort kommen, wird es ein Dimension Attribute genannt. Aber wenn ein Attribut nicht mit irgendeiner der Table verknüpft ist, wird es Fact Attribute genannt. 27/43
  • 28. Data Cube Data Cube ermöglicht es, Daten in mehreren Dimensionen zu modellieren und zu betrachten. Sie wird durch Dimensionen und Fakten definiert. [1] Ein OLAP-Cube ist ein Begriff, der sich typischerweise auf ein mehrdimensionales Array von Daten bezieht [2] Es muss nicht 3D sein, es kann 4, 5 etc. Aber der menschliche Geist ist nicht wirksam nach 3. [1]Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 136 ; [2]Gray, Jim; Bosworth, Adam; Layman, Andrew; Pirahesh, Hamid (1996). "Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals". Proceedings of the International Conference on Data Engineering (ICDE)28/43 4 3
  • 29. Data Cube Virtualisation Virtualisierung ist wichtig für das Verständnis der Analyse besser. OLAP- Server verfügt über Tools für die Virtualisierung. 29/43
  • 30. A Multitiered Architecture 1. Bottom Tier ist ein Warehouse Datenbank Server, der fast immer ein relationales Datenbanksystem ist. Back-End-Tools und Dienstprogramme werden verwendet, um Daten in die untere Ebene aus operativen Datenbanken oder anderen externen Quellen zu füttern 2. R-OLAP / M-OLAP / H-OLAP (Auf der nächsten Seite) 3. Top Tier ist eine Front-End Client Tier, die Abfrage- und Berichtswerkzeuge, Analysetools und / oder Data Mining- Tools enthält Han - Data Mining Concepts and Techniques 3rd Edition - 2012 Seite 13130/43
  • 31. ROLAP, MOLAP und HOLAP • MOLAP ist der am meisten genutzte Speichertyp. Seine entworfen, um maximale Abfrageleistung den Benutzern anzubieten. Daten und Aggregationen werden im Cube optimiert gespeichert. Die Daten im Cube werden nur aktualisiert, wenn der Cube verarbeitet wird, also ist die Latenz hoch. • ROLAP hat nicht den hohen Latenznachteil von MOLAP. Mit ROLAP werden die Daten und Aggregationen im relationalen Format gespeichert. Dies bedeutet, dass es keine Latenz zwischen der relationalen Quellendatenbank und dem Cube geben wird. Nachteil dieser Modus ist die Leistung, diese Art gibt die schlechteste Abfrage Leistung, weil keine Objekte profitieren von mehrdimensionalen Speicher. • HOLAP ist ein Speichertyp zwischen MOLAP und ROLAP. Die Daten werden im relationalen Format (ROLAP) gespeichert, so dass es auch keine Latenzzeit mit diesem Speichertyp gibt. Aggregationen hingegen werden im Multi-dimensionalen Format (MOLAP) im Cube gespeichert, um eine bessere Abfrageleistung zu erzielen. SSAS wird auf Benachrichtigungen von der Quell-relationalen Datenbank zu hören, wenn Änderungen vorgenommen werden, erhalten SSAS eine Benachrichtigung und wird die Aggregationen wieder verarbeiten. Mit diesem Modus ist es möglich, den Nutzern eine Latenz von Null anzubieten, jedoch mit einer mittleren Abfrageleistung im Vergleich zu MOLAP und ROLAP. Datenspeicherung Aggregationsla gerung Abfrageleistung Latenz MOLAP Kubus Kubus Hoch Hoch HOLAP Relationale Datenbank Kubus Mittel Keiner ROLAP Relationale Datenbank Relationale Datenbank Niedrig Keiner Bespiel für OLAP Server; IBM Cognos TM1, Essbase, icCube, Jedox OLAP Server, Infor BI OLAP Server, Microsoft Analysis Services, MicroStrategy Intelligence Server, Mondrian OLAP server, Oracle Database OLAP Option , SAS OLAP Server 31/43
  • 32. Schritte von OLAP A typical query 1. Join; Beitritt der Beziehungen so wachsende Informationen. 2. Filter; Filtern von verbundenen Daten. Bsp: Zwischen 2015-2016 3. Group; Auch nach dem Filtern gibt es Millionen Zeile. Bsp: Nicht alle Verkaufsdatenzeilen (Millionen Zeile) Gruppiert nach Zweigstellen. (nur ein paar) 4. Aggregate; Während der Gruppierung einige mathematische Funktionen benötigt werden. Daten gruppiert nach Branchen, aber Umsatzmenge? Wir brauchen Funktion wie Average () Count () Sum ()
  • 33. OLAP Operationen • Durch Drill Down / Up kann der Benutzer zwischen verschiedenen Datenebenen navigieren, die von den meisten zusammengefassten (bis zu den detailliertesten (unten) [1] • Dice Operation erzeugt einen Subcube, indem der Analytiker bestimmte Werte von mehreren Dimensionen auswählen kann. [2] • Slice ist der Akt der Auswahl eines rechteckigen Teilmenge eines Würfels, indem er einen einzelnen Wert für eine seiner Dimensionen, die Schaffung eines neuen Würfels mit einer weniger Dimension [1] • Pivot erlaubt einem Analytiker, den Würfel im Raum zu drehen, um seine verschiedenen Gesichter zu sehen [1] [1]OLAP and OLAP Server Definitions". The OLAP Council 1995 ; [2]Glossary of Data Mining Terms". University of Alberta 1999 Han - Data Mining Concepts and Techniques 3rd Edition 2012 33/43
  • 34. Die Ähnlichkeiten und die Unterschiede zwischen Data Mining und OLAP • Data Mining und OLAP, beide sind zwei der gemeinsamen Business Intelligence (BI) Technologien. • Business Intelligence bezieht sich auf computerbasierte Methoden zur Identifizierung und nützliche Informationen aus Geschäftsdaten zu extrahieren. 34/43
  • 35. Vergleichung mit kürzliche Erklärungen • OLAP ist ein Design-Paradigma, ein Weg, um Informationen aus dem physischen Datenspeicher zu suchen. • Es aggregiert Informationen aus mehreren Systemen und speichert sie in einem mehrdimensionalen Format. • Data Mining gräbt Informationen innerhalb und außerhalb der Organisation, um bei der Beantwortung von Geschäftsfragen zu helfen • Sie umfassen Verhältnisse und Algorithmen wie Entscheidungsbäume, nächste Nachbar-Klassifizierung und Wandgemeinschaften, zusammen mit Clustering von Daten. 35/43
  • 36. Data Mining vs OLAP • Obwohl es offensichtlich ist, dass Data Mining und OLAP ähnlich sind, weil sie auf Daten arbeiten, um Intelligenz zu gewinnen, kommt der Hauptunterschied davon, wie sie auf Daten arbeiten. 36/43
  • 37. Data Mining vs OLAP • OLAP und Data Mining werden verwendet, um verschiedene Arten von analytischen Problemen zu lösen. Zum Beispiel, OLAP fasst Daten zusammen und macht Prognosen und es beantwortet operative Fragen wie "Was sind die durchschnittlichen Verkäufe von Autos, nach Region und Jahr?". 37/43
  • 38. Data Mining vs OLAP • Data Mining erkennt verborgene Muster in Daten und arbeitet auf einer detaillierten Ebene statt einer Zusammenfassung Ebene. • Zum Beispiel in einer Telekom-Industrie, Data Mining würde Fragen wie "Wer ist wahrscheinlich, Dienstleister verschieben und was sind die Gründe dafür? Beantworten. 38/43
  • 39. Vergleichung zum Benutzer • Die Kunden für OLAP und Data Mining sind unterschiedlich. In einer typischen Organisation wird OLAP von den regulären Front- und Backoffice- Mitarbeitern genutzt. • Data mining is used by business strategists. The strategists base their business moves on the information thrown up by the data mine. 39/43
  • 40. Tabellarische Darstellung Quellen: http://www.elml.uzh.ch/preview/fois/DSSII/de/html/le3_learni ngObject4.html (last accessed on 18/12/2016) OLAP Data Mining Top-down, abfragegesteuert (query-driven) Bottom-up, entdeckungsgesteuert (discovery- driven) Wiederholtes Testen von Theorien, die vom Benutzer aufgestellt wurden Benötigt keine Annahmen Erfordert viel Interaktion zwischen Benutzer und Datenbank Keine intensive Interaktion zwischen Benutzer und Datenbank erforderlich Benutzer muss eine klare Vorstellung von den Informationen, nach denen er sucht, haben Läuft praktisch automatisch ab Benutzer ist in ständiger Interaktion mit dem System Benutzerinteraktion beschränkt sich auf die Auswahl des Data-Mining-Algorithmus und der geeigneten Parameter Beantwortet Fragen wie "Ist das richtig?" Beantwortet Fragen wie " Wieso passiert das? Und was könnte passieren, wenn…?" 40/43
  • 41. Können Data Mining und OLAP zusammenarbeiten? • Data Mining ist geeignet für eine Organisation, die eine zukünftige Perspektive auf Dinge will. Aber für eine Organisation, die lediglich ihre betriebliche Effizienz verbessern will, kann OLAP verwendet werden. 41/43
  • 42. Können Data Mining und OLAP zusammenarbeiten? • OLAP und Data Mining können sich gegenseitig ergänzen. Zum Beispiel, während OLAP Probleme mit dem Verkauf eines Produkts in einer bestimmten Region punktiert, könnte Data Mining verwendet werden, um Einblick in das Verhalten der einzelnen Kunden zu gewinnen. Ähnlich, nach Data Mining prognostiziert etwas wie eine 5%’ige Umsatzsteigerung, könnte OLAP verwendet werden, um das Nettoeinkommen zu verfolgen. 42/43
  • 43. 43/43 Mahmut Tozduman – Sena Kaba – Murat Süzük