SlideShare ist ein Scribd-Unternehmen logo

Data Lake Architektur: Von den Anforderungen zur Technologie

Jens Albrecht
Jens Albrecht
Jens AlbrechtProfessor, Trainer, Consultant for Data Management um Technische Hochschule Georg Simon Ohm Nürnberg

Keynote auf dem BARC Big Data Forum auf der OOP 2017, München. Data Lakes bieten das Potenzial, den Zugriff auf heterogene Massendaten deutlich schneller und einfacher als relationale DWH-System zu ermöglichen. Die Risiken, die sich durch neue Technologien und den weitgehenden Verzicht auf vorab definierte Strukturen ergeben, dürfen allerdings nicht außer acht gelassen werden. Anforderungsmuster helfen, notwendige Strukturen für den Data Lake an sich und auch den Technologie-Stack zu definieren.

Data Lake Architektur: Von den Anforderungen zur Technologie

1 von 27
Downloaden Sie, um offline zu lesen
Prof. Dr. Jens Albrecht
jens.albrecht@th-nuernberg.de
Data Lake Architektur
Von den Anforderungen zur Technologie
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Anzeige

Recomendados

Microsoft Azure Cloud Services
Microsoft Azure Cloud ServicesMicrosoft Azure Cloud Services
Microsoft Azure Cloud ServicesDavid J Rosenthal
 
re:Invent 2022 DAT326 Deep dive into Amazon Aurora and its innovations
re:Invent 2022  DAT326 Deep dive into Amazon Aurora and its innovationsre:Invent 2022  DAT326 Deep dive into Amazon Aurora and its innovations
re:Invent 2022 DAT326 Deep dive into Amazon Aurora and its innovationsGrant McAlister
 
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...Amazon Web Services Korea
 
AWS 시작하기 및 Amazon S3 살펴보기 (윤석찬) - AWS 웨비나 시리즈
AWS 시작하기 및 Amazon S3 살펴보기 (윤석찬) - AWS 웨비나 시리즈AWS 시작하기 및 Amazon S3 살펴보기 (윤석찬) - AWS 웨비나 시리즈
AWS 시작하기 및 Amazon S3 살펴보기 (윤석찬) - AWS 웨비나 시리즈Amazon Web Services Korea
 
Azure Data Factory Introduction.pdf
Azure Data Factory Introduction.pdfAzure Data Factory Introduction.pdf
Azure Data Factory Introduction.pdfMaheshPandit16
 
MySQL_SQL_Tunning_v0.1.3.docx
MySQL_SQL_Tunning_v0.1.3.docxMySQL_SQL_Tunning_v0.1.3.docx
MySQL_SQL_Tunning_v0.1.3.docxNeoClova
 
Pyspark Tutorial | Introduction to Apache Spark with Python | PySpark Trainin...
Pyspark Tutorial | Introduction to Apache Spark with Python | PySpark Trainin...Pyspark Tutorial | Introduction to Apache Spark with Python | PySpark Trainin...
Pyspark Tutorial | Introduction to Apache Spark with Python | PySpark Trainin...Edureka!
 
The Complete MariaDB Server tutorial
The Complete MariaDB Server tutorialThe Complete MariaDB Server tutorial
The Complete MariaDB Server tutorialColin Charles
 

Más contenido relacionado

Was ist angesagt?

Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기Amazon Web Services Korea
 
A Comparison of EDB Postgres to Self-Supported PostgreSQL
A Comparison of EDB Postgres to Self-Supported PostgreSQLA Comparison of EDB Postgres to Self-Supported PostgreSQL
A Comparison of EDB Postgres to Self-Supported PostgreSQLEDB
 
(DAT401) Amazon DynamoDB Deep Dive
(DAT401) Amazon DynamoDB Deep Dive(DAT401) Amazon DynamoDB Deep Dive
(DAT401) Amazon DynamoDB Deep DiveAmazon Web Services
 
클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)
클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)
클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)Amazon Web Services Korea
 
Lake Database Database Template Map Data in Azure Synapse Analytics
Lake Database  Database Template  Map Data in Azure Synapse AnalyticsLake Database  Database Template  Map Data in Azure Synapse Analytics
Lake Database Database Template Map Data in Azure Synapse AnalyticsErwin de Kreuk
 
Azure subscription management with EA and CSP
Azure subscription management with EA and CSPAzure subscription management with EA and CSP
Azure subscription management with EA and CSPDaichi Isami
 
MySQL_MariaDB로의_전환_기술요소-202212.pptx
MySQL_MariaDB로의_전환_기술요소-202212.pptxMySQL_MariaDB로의_전환_기술요소-202212.pptx
MySQL_MariaDB로의_전환_기술요소-202212.pptxNeoClova
 
Relational databases vs Non-relational databases
Relational databases vs Non-relational databasesRelational databases vs Non-relational databases
Relational databases vs Non-relational databasesJames Serra
 
Dynamodb Presentation
Dynamodb PresentationDynamodb Presentation
Dynamodb Presentationadvaitdeo
 
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWSAmazon Web Services Korea
 
NLP techniques for log analysis
NLP techniques for log analysisNLP techniques for log analysis
NLP techniques for log analysisJacob Perkins
 
Databricks on AWS.pptx
Databricks on AWS.pptxDatabricks on AWS.pptx
Databricks on AWS.pptxWasm1953
 
Learn to Use Databricks for Data Science
Learn to Use Databricks for Data ScienceLearn to Use Databricks for Data Science
Learn to Use Databricks for Data ScienceDatabricks
 
Azure cosmos db, Azure no-SQL database,
Azure cosmos db, Azure no-SQL database, Azure cosmos db, Azure no-SQL database,
Azure cosmos db, Azure no-SQL database, BRIJESH KUMAR
 
NF102: Nutanix AHV Basics
NF102: Nutanix AHV BasicsNF102: Nutanix AHV Basics
NF102: Nutanix AHV BasicsNEXTtour
 
Databricks for Dummies
Databricks for DummiesDatabricks for Dummies
Databricks for DummiesRodney Joyce
 
갤럭시 규모의 인공지능 서비스를 위한 AWS 데이터베이스 아키텍처 - 김상필 솔루션 아키텍트 매니저, AWS / 김정환 데브옵스 엔지니어,...
갤럭시 규모의 인공지능 서비스를 위한 AWS 데이터베이스 아키텍처 - 김상필 솔루션 아키텍트 매니저, AWS / 김정환 데브옵스 엔지니어,...갤럭시 규모의 인공지능 서비스를 위한 AWS 데이터베이스 아키텍처 - 김상필 솔루션 아키텍트 매니저, AWS / 김정환 데브옵스 엔지니어,...
갤럭시 규모의 인공지능 서비스를 위한 AWS 데이터베이스 아키텍처 - 김상필 솔루션 아키텍트 매니저, AWS / 김정환 데브옵스 엔지니어,...Amazon Web Services Korea
 
Qlik Sense for Beginners - www.techstuffy.com - QlikView Next Generation
Qlik Sense for Beginners - www.techstuffy.com - QlikView Next GenerationQlik Sense for Beginners - www.techstuffy.com - QlikView Next Generation
Qlik Sense for Beginners - www.techstuffy.com - QlikView Next GenerationPractical QlikView
 
Azure data bricks by Eugene Polonichko
Azure data bricks by Eugene PolonichkoAzure data bricks by Eugene Polonichko
Azure data bricks by Eugene PolonichkoAlex Tumanoff
 

Was ist angesagt? (20)

Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
 
A Comparison of EDB Postgres to Self-Supported PostgreSQL
A Comparison of EDB Postgres to Self-Supported PostgreSQLA Comparison of EDB Postgres to Self-Supported PostgreSQL
A Comparison of EDB Postgres to Self-Supported PostgreSQL
 
(DAT401) Amazon DynamoDB Deep Dive
(DAT401) Amazon DynamoDB Deep Dive(DAT401) Amazon DynamoDB Deep Dive
(DAT401) Amazon DynamoDB Deep Dive
 
클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)
클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)
클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)
 
Lake Database Database Template Map Data in Azure Synapse Analytics
Lake Database  Database Template  Map Data in Azure Synapse AnalyticsLake Database  Database Template  Map Data in Azure Synapse Analytics
Lake Database Database Template Map Data in Azure Synapse Analytics
 
Azure subscription management with EA and CSP
Azure subscription management with EA and CSPAzure subscription management with EA and CSP
Azure subscription management with EA and CSP
 
MySQL_MariaDB로의_전환_기술요소-202212.pptx
MySQL_MariaDB로의_전환_기술요소-202212.pptxMySQL_MariaDB로의_전환_기술요소-202212.pptx
MySQL_MariaDB로의_전환_기술요소-202212.pptx
 
Relational databases vs Non-relational databases
Relational databases vs Non-relational databasesRelational databases vs Non-relational databases
Relational databases vs Non-relational databases
 
Dynamodb Presentation
Dynamodb PresentationDynamodb Presentation
Dynamodb Presentation
 
Introduction of microsoft azure
Introduction of microsoft azureIntroduction of microsoft azure
Introduction of microsoft azure
 
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
 
NLP techniques for log analysis
NLP techniques for log analysisNLP techniques for log analysis
NLP techniques for log analysis
 
Databricks on AWS.pptx
Databricks on AWS.pptxDatabricks on AWS.pptx
Databricks on AWS.pptx
 
Learn to Use Databricks for Data Science
Learn to Use Databricks for Data ScienceLearn to Use Databricks for Data Science
Learn to Use Databricks for Data Science
 
Azure cosmos db, Azure no-SQL database,
Azure cosmos db, Azure no-SQL database, Azure cosmos db, Azure no-SQL database,
Azure cosmos db, Azure no-SQL database,
 
NF102: Nutanix AHV Basics
NF102: Nutanix AHV BasicsNF102: Nutanix AHV Basics
NF102: Nutanix AHV Basics
 
Databricks for Dummies
Databricks for DummiesDatabricks for Dummies
Databricks for Dummies
 
갤럭시 규모의 인공지능 서비스를 위한 AWS 데이터베이스 아키텍처 - 김상필 솔루션 아키텍트 매니저, AWS / 김정환 데브옵스 엔지니어,...
갤럭시 규모의 인공지능 서비스를 위한 AWS 데이터베이스 아키텍처 - 김상필 솔루션 아키텍트 매니저, AWS / 김정환 데브옵스 엔지니어,...갤럭시 규모의 인공지능 서비스를 위한 AWS 데이터베이스 아키텍처 - 김상필 솔루션 아키텍트 매니저, AWS / 김정환 데브옵스 엔지니어,...
갤럭시 규모의 인공지능 서비스를 위한 AWS 데이터베이스 아키텍처 - 김상필 솔루션 아키텍트 매니저, AWS / 김정환 데브옵스 엔지니어,...
 
Qlik Sense for Beginners - www.techstuffy.com - QlikView Next Generation
Qlik Sense for Beginners - www.techstuffy.com - QlikView Next GenerationQlik Sense for Beginners - www.techstuffy.com - QlikView Next Generation
Qlik Sense for Beginners - www.techstuffy.com - QlikView Next Generation
 
Azure data bricks by Eugene Polonichko
Azure data bricks by Eugene PolonichkoAzure data bricks by Eugene Polonichko
Azure data bricks by Eugene Polonichko
 

Ähnlich wie Data Lake Architektur: Von den Anforderungen zur Technologie

Logical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und HadoopLogical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und HadoopOPITZ CONSULTING Deutschland
 
Einfuehrung in Apache Spark
Einfuehrung in Apache SparkEinfuehrung in Apache Spark
Einfuehrung in Apache SparkJens Albrecht
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2Ulrike Schwinn
 
Oracle Database 12c Release 2
Oracle Database 12c Release 2 Oracle Database 12c Release 2
Oracle Database 12c Release 2 oraclebudb
 
Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesQAware GmbH
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rMarcel Franke
 
Text Mining mit Python und PowerBI
Text Mining mit Python und PowerBIText Mining mit Python und PowerBI
Text Mining mit Python und PowerBIJens Albrecht
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Harald Erb
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Cloudera, Inc.
 
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS SummitEchtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS SummitAWS Germany
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformAnalytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformRising Media Ltd.
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftISR Information Products AG
 
Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017oraclebudb
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Harald Erb
 

Ähnlich wie Data Lake Architektur: Von den Anforderungen zur Technologie (20)

Logical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und HadoopLogical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und Hadoop
 
Einfuehrung in Apache Spark
Einfuehrung in Apache SparkEinfuehrung in Apache Spark
Einfuehrung in Apache Spark
 
Warum sap hana sql data warehousing
Warum sap hana sql data warehousingWarum sap hana sql data warehousing
Warum sap hana sql data warehousing
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
SAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein ÜberblickSAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein Überblick
 
Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2
 
Oracle Database 12c Release 2
Oracle Database 12c Release 2 Oracle Database 12c Release 2
Oracle Database 12c Release 2
 
Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit Microservices
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
SAP BW im Umbruch
SAP BW im UmbruchSAP BW im Umbruch
SAP BW im Umbruch
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
Text Mining mit Python und PowerBI
Text Mining mit Python und PowerBIText Mining mit Python und PowerBI
Text Mining mit Python und PowerBI
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
 
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS SummitEchtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformAnalytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
 
Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!
 

Data Lake Architektur: Von den Anforderungen zur Technologie

  • 1. Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Data Lake Architektur Von den Anforderungen zur Technologie
  • 2. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 3. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 4. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 5. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 6. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 7. Prof. Dr. Jens Albrecht Big Data 11 Storage Layer Ingestion Layer Serving Layer Referenzarchitektur für BI End-User Layer Data Sources Reporting OLAP OLTP Systems In-Memory RDBMS Data Marts Staging Area Enterprise DWH
  • 8. Prof. Dr. Jens Albrecht Big Data 12 Storage Layer Ingestion Layer Serving Layer Referenzarchitektur für BI und Big Data End-User Layer Data Sources Reporting OLAP Operational Analytics Data Discovery Data Lake Hadoop, NoSQL Prediction OLTP Systems In-Memory RDBMS Data Marts Staging Area Enterprise DWH Search
  • 9. Prof. Dr. Jens Albrecht Big Data 14 Enterprise Data Lake / Hub / Reservoir Internal Applications External Data Sources 0 1 0 1 0 1 0 1 0 1 0 1 0 1 Comprehensive Data Pool Business Analytics Tool Collect data as it is generated, process data when it is needed.
  • 10. Prof. Dr. Jens Albrecht Big Data 15 Wozu ein Data Lake? Daten in Originalformat gespeichert Datenstrukturen werden erst definiert, wenn Daten benötigt werden (Schema-on-Read) Alle Daten werden gespeichert Einfache Adaption von Änderungen Agile Einbindung neuer Daten Einfacher Zugriff für alle Benutzer
  • 11. Prof. Dr. Jens Albrecht Big Data 16 > Anforderungsmuster verstehen
  • 12. Prof. Dr. Jens Albrecht Big Data 18 Nifi Flink Storm Samza Apex … Real-Time/ Stream Kafka Spark Fixing the Requirements: Ingestion ForeachDataSource Data Types (Variety) Frequency (Velocity) Latency (Batch or Stream) Volume Quality (Veracity) Consistent Timeline CDC Push/Pull Hive Sqoop Spark … Batch Beam
  • 13. Prof. Dr. Jens Albrecht Big Data 19 Lambda und Kappa Architektur Streaming Data Speed Layer Kafka, Storm Batch Layer Hadoop, Spark Serving LayerLambda Streaming Data Message Buffer and Broker Kafka Stream Processor Flink, Spark Serving Layer Kappa Speed Table Batch Table
  • 14. Prof. Dr. Jens Albrecht Big Data 20 Fixing the Requirements: Storage & Process Storage 3V's Query Patterns Update Patterns SQL Support Data Linkage Schema Evolution Historical Queries (as-is vs. as-was) Security Retention Policy Accumulo HBase Cassandra Mongo Neo4j … NoSQL In-Memory SMP MPP Open Source Kudu … Relational Parquet Flat Files JSON ORC Avro … HDFS + Hive/Spark Cloud?
  • 15. Prof. Dr. Jens Albrecht Big Data 21 Apache Spark – Swiss Army Knife of Big Data ☛ Agilität und Skalierbarkeit mit und ohne Hadoop ▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python) ▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung ▸ Einheitliches System für Batch- und Stream-Processing Batch Processing Machine Learning Java Python Scala R Data Streaming Graph Processing SQL Apache Spark
  • 16. Prof. Dr. Jens Albrecht Big Data 22 Fixing the Requirements: Curation & Governance Curation Quality Policies & Standards Security & Privacy Lifecycle Management Lineage Metadata Management Data Tagging Data Lake Landing Zone Raw Zone Discovery Sandbox Curated Zone Work Zone DataInventory Security Sensitive Zone Waterline Atlas Cloudera Navigator Sentry Ranger
  • 17. Prof. Dr. Jens Albrecht Big Data 24 Anwendungsfälle Data Lake Hadoop, NoSQL Enterprise DWH UseCases Advanced Analytics Self-Service Data Discovery Stream Processing ETL Migration Data Offloading Virtual Data Hub Kafka Sqoop Spark Datasource API SQL, R, ML, Streaming Hive, Drill, Impala
  • 18. Prof. Dr. Jens Albrecht Big Data 25 > Risiken verstehen
  • 19. Prof. Dr. Jens Albrecht Big Data 26 Risiken Wer billig kauft, kauft zweimal CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)
  • 20. Prof. Dr. Jens Albrecht Big Data 27 Risiken Falsches Werkzeug für die Aufgabe www.pixabay.com
  • 21. Prof. Dr. Jens Albrecht Big Data 28 Risiken Unterschätzung der technologischen Komplexität www.pixabay.com
  • 22. Prof. Dr. Jens Albrecht Big Data 29 Risiken Unterschätzung des Personalbedarfs und -aufwands www.pixabay.com www.pixabay.com
  • 23. Prof. Dr. Jens Albrecht Big Data 30 Risiken Mangelnde Automatisierung und Wieder- verwendbarkeit www.pixabay.com www.pixabay.com
  • 24. Prof. Dr. Jens Albrecht Big Data 31 Risiken Abhängigkeit von der IT www.pixabay.com www.pixabay.com
  • 25. Prof. Dr. Jens Albrecht Big Data 32 > Fazit
  • 26. Prof. Dr. Jens Albrecht Big Data 33 Fazit 1. Data Warehouse und Data Lake ergänzen sich und werden stärker zusammen wachsen 2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige Technologie-Auswahl 3. Komplexität kontrollieren 4. Gesundes Maß für Data Governance und Security finden 5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts
  • 27. Prof. Dr. Jens Albrecht Big Data 34 > Vielen Dank Jens.Albrecht@th-nuernberg.de