SlideShare ist ein Scribd-Unternehmen logo
1 von 18
MARZO 2020 /2020 / JAKALA 11
Azure Data Factory: l'evoluzione
della specie della data integration
Azure Meetup Milano - AperiTech Edition
7 Aprile 2020
APRILE 2020 /2020 / Azure Meetup 2
bit.ly/robymes_azure_aperitech
2
APRILE 2020 /2020 / Azure Meetup 3
Agenda
• Data Factory: chi, cosa, quando, perchè
• Componenti base
• Ambiente di esecuzione
• Data flow
• Monitoring & alerting
• Security & Git integration
• Pricing
APRILE 2020 /2020 / Azure Meetup 4
Azure Data Factory: chi, cosa, quando
• Data Factory è il servizio gestito di data integration offerto da Azure
• Permette di orchestrare processi ETL/ELT e data preparation, di dati strutturati e non strutturati,
progettati ed implementati senza l’uso di codice (no code)
• Utilizzabile in tutti quei casi in cui è necessario raccogliere e aggregare dati provenienti da
diverse fonti, cloud e on-premise
APRILE 2020 /2020 / Azure Meetup 5
Azure Data Factory: perchè
• Servizio PaaS con infrastruttura interamente gestita
• Disegno e implementazione dei processi completamente senza codice
• Disponibilità di una grande quantità di connettori per diverse fonti dati
• Semplice gestione dei trigger di avvio dei processi (ad evento o schedulati)
• Sistema integrato di monitoraggio e alerting
• Costi contenuti
• Integrazione con Git e CI/CD
APRILE 2020 /2020 / Azure Meetup 6
Azure Data Factory: componenti base
• Linked Service: configurazione delle connessioni alle fonti o destinazioni dati tramite connettori
dedicati
• Dataset: configurazione di uno specifico dataset (tabella, file, JSON, ecc.) all’interno del Linked
Service
• Pipeline: orchestrazione di una serie di attività di lettura, trasformazione e scrittura sui Dataset
• Trigger: configurazione della modalità di avvio delle Pipeline per evento o schedulazione
APRILE 2020 /2020 / Azure Meetup 77
Demo
Simple Pipeline
7
APRILE 2020 /2020 / Azure Meetup 8
Azure Data Factory: ambiente di esecuzione
• I Linked Service vengono resi disponibili tramite un Integration Runtime che può essere di tre tipi:
• Azure: runtime di default completamente gestito per l’accesso a fonti dati cloud
• Self Hosted: runtime da installare e configurare manualmente per l’accesso a fonti dati
disponibili tramite Azure Virtual Network e on-premise
• Azure SSIS: runtime dedicato specificatamente all’esecuzione lift & shift di pacchetti SQL
Server Integration Services sia nel cloud che in Azure Virtual Network e on-premise
APRILE 2020 /2020 / Azure Meetup 9
Azure Data Factory: schema integration runtime
Integration Runtime Public network Private network
Azure
Data Flow
Data movement
Activity dispatch
Self-hosted
Data movement
Activity dispatch
Data movement
Activity dispatch
Azure-SSIS SSIS package execution SSIS package execution
APRILE 2020 /2020 / Azure Meetup 10
Azure Data Factory: panoramica integration runtime
APRILE 2020 /2020 / Azure Meetup 1111
Demo
Self Hosted Integration Runtime
1
APRILE 2020 /2020 / Azure Meetup 12
Azure Data Factory: data flow
• I Data Flow sono di fatto Pipeline dedicate alla data transformation/preparation che vengono
eseguite su cluster Spark completamente gestito
• Sono attivabili solo per Dataset disponibili su Azure (es. Azure Storage) tramite l’Azure Integration
Runtime
• Esistono due tipologie di Data Flow:
• Mapping Data Flow: orchestrazione di una serie di attività di data transformation
• Wrangling Data Flow (in preview): orchestrazione di una serie di attività di data preparation
mediante l’uso del motore di Power Query Online
APRILE 2020 /2020 / Azure Meetup 1313
Demo
Data Flows
1
APRILE 2020 /2020 / Azure Meetup 14
Azure Data Factory: monitoring & alerting
• Azure Data Factory offre un ambiente di monitoring & alerting completamente integrato
• Il monitoraggio permette di controllare lo stato e lo storico delle esecuzioni delle Pipeline
• Permette di analizzare in dettaglio le single attività che compongono sia le Pipeline che i Data
Flow, anche in retrospettiva una volta che siano state completate (qualsiasi sia l’esito)
• L’alerting permette di definire metriche anche complesse e soglie a cui reagire con una notifica
(email, sms, push notification)
APRILE 2020 /2020 / Azure Meetup 15
Azure Data Factory: security & git integration
• Il modello di sicurezza su cui si basa Azure Data Factory è quello classico RBAC traimite i ruoli
Azure:
• Creazione istanza Data Factory: Subscription Administrator, Owner, Contributor
• Gestione Data Factory: Data Factory Contributor
• Limitazione gestione Data Factory: va definito un custom Azure Role
• Azure Data Factory fornisce l’integrazione nativa con Git tramite Azure DevOps e GitHub
• ATTENZIONE: la pubblicazione effettiva in produzione delle modifiche può essere fatta solo
dalla branch master, in caso di branch di sviluppo occorre prima eseguire una merge
APRILE 2020 /2020 / Azure Meetup 16
Azure Data Factory: pricing
• Il modello di pricing di Azure Data Factory è suddiviso per:
• Data Pipeline: due diversi modelli di pricing per:
• Orchestrazione & Esecuzione: pay per use basato sul numero di esecuzioni delle Pipeline
e delle single attività, differenziato per tipologia di Integration Runtime
• Data Flow: pay per use basato sul sizing delle VM, numero di nodi del cluster Spark
• SQL Server Integration Services: pay per use basato sul sizing delle VM, numero di nodi e
licenza di SSIS
MARZO 2020 /2020 / JAKALA 1717
Roberto Messora
Head of Business Integration & Architectures
roberto.messora@jakala.com
https://twitter.com/robymes
MARZO 2020 /2020 / JAKALA 18

Weitere ähnliche Inhalte

Was ist angesagt?

Come utilizzare AWS DMS per migrare SQL Server ad Amazon Aurora
Come utilizzare AWS DMS per migrare SQL Server ad Amazon AuroraCome utilizzare AWS DMS per migrare SQL Server ad Amazon Aurora
Come utilizzare AWS DMS per migrare SQL Server ad Amazon AuroraGianluca Hotz
 
SQL Server Failover Cluster Instances con Amazon FSx in AWS
SQL Server Failover Cluster Instances con Amazon FSx in AWSSQL Server Failover Cluster Instances con Amazon FSx in AWS
SQL Server Failover Cluster Instances con Amazon FSx in AWSGianluca Hotz
 
Mettere in sicurezza ambienti sql server
Mettere in sicurezza ambienti sql serverMettere in sicurezza ambienti sql server
Mettere in sicurezza ambienti sql serverGianluca Hotz
 
Azure Synapse: data lake & modern data warehouse dalla A alla Z
Azure Synapse: data lake &  modern data warehouse dalla A alla ZAzure Synapse: data lake &  modern data warehouse dalla A alla Z
Azure Synapse: data lake & modern data warehouse dalla A alla ZRoberto Messora
 
SQL Server Workload Profiling
SQL Server Workload ProfilingSQL Server Workload Profiling
SQL Server Workload ProfilingGianluca Hotz
 
Best Practices on SQL Server
Best Practices on SQL ServerBest Practices on SQL Server
Best Practices on SQL ServerGianluca Hotz
 
SQL Server Failover Cluster Instances con Azure Managed Disks
SQL Server Failover Cluster Instances con Azure Managed DisksSQL Server Failover Cluster Instances con Azure Managed Disks
SQL Server Failover Cluster Instances con Azure Managed DisksGianluca Hotz
 
SQL Server Back to Basics: Sicurezza
SQL Server Back to Basics: SicurezzaSQL Server Back to Basics: Sicurezza
SQL Server Back to Basics: SicurezzaGianluca Hotz
 
Azure SQL Database Ledger
Azure SQL Database LedgerAzure SQL Database Ledger
Azure SQL Database LedgerGianluca Hotz
 
SQL Server Modern Query Processing
SQL Server Modern Query ProcessingSQL Server Modern Query Processing
SQL Server Modern Query ProcessingGianluca Hotz
 
Una web farm bilanciata e scalabile con Microsoft Azure
Una web farm bilanciata e scalabile con Microsoft AzureUna web farm bilanciata e scalabile con Microsoft Azure
Una web farm bilanciata e scalabile con Microsoft AzureDavide Benvegnù
 
Azure Meetup: Azure Storage/Datalake Deep Dive
Azure Meetup: Azure Storage/Datalake Deep DiveAzure Meetup: Azure Storage/Datalake Deep Dive
Azure Meetup: Azure Storage/Datalake Deep Divedotnetcode
 
Db2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBMDb2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBMJürgen Ambrosi
 
Cassandra + Hadoop: Analisi Batch con Apache Cassandra
Cassandra + Hadoop: Analisi Batch con Apache CassandraCassandra + Hadoop: Analisi Batch con Apache Cassandra
Cassandra + Hadoop: Analisi Batch con Apache CassandraJeremy Hanna
 
IaC - Infrastructure as Code, gestire infrastrutture cloud tramite file di co...
IaC - Infrastructure as Code, gestire infrastrutture cloud tramite file di co...IaC - Infrastructure as Code, gestire infrastrutture cloud tramite file di co...
IaC - Infrastructure as Code, gestire infrastrutture cloud tramite file di co...Daniele Mondello
 
2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL Database2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL DatabaseEmanuele Zanchettin
 
Azure for Game Developers
Azure for Game DevelopersAzure for Game Developers
Azure for Game DevelopersMarco Parenzan
 

Was ist angesagt? (20)

SQL Server in AWS
SQL Server in AWSSQL Server in AWS
SQL Server in AWS
 
Come utilizzare AWS DMS per migrare SQL Server ad Amazon Aurora
Come utilizzare AWS DMS per migrare SQL Server ad Amazon AuroraCome utilizzare AWS DMS per migrare SQL Server ad Amazon Aurora
Come utilizzare AWS DMS per migrare SQL Server ad Amazon Aurora
 
SQL Server in AWS
SQL Server in AWSSQL Server in AWS
SQL Server in AWS
 
SQL Server Failover Cluster Instances con Amazon FSx in AWS
SQL Server Failover Cluster Instances con Amazon FSx in AWSSQL Server Failover Cluster Instances con Amazon FSx in AWS
SQL Server Failover Cluster Instances con Amazon FSx in AWS
 
Mettere in sicurezza ambienti sql server
Mettere in sicurezza ambienti sql serverMettere in sicurezza ambienti sql server
Mettere in sicurezza ambienti sql server
 
Azure Synapse: data lake & modern data warehouse dalla A alla Z
Azure Synapse: data lake &  modern data warehouse dalla A alla ZAzure Synapse: data lake &  modern data warehouse dalla A alla Z
Azure Synapse: data lake & modern data warehouse dalla A alla Z
 
SQL Server Workload Profiling
SQL Server Workload ProfilingSQL Server Workload Profiling
SQL Server Workload Profiling
 
Best Practices on SQL Server
Best Practices on SQL ServerBest Practices on SQL Server
Best Practices on SQL Server
 
SQL Server Failover Cluster Instances con Azure Managed Disks
SQL Server Failover Cluster Instances con Azure Managed DisksSQL Server Failover Cluster Instances con Azure Managed Disks
SQL Server Failover Cluster Instances con Azure Managed Disks
 
SQL Server Back to Basics: Sicurezza
SQL Server Back to Basics: SicurezzaSQL Server Back to Basics: Sicurezza
SQL Server Back to Basics: Sicurezza
 
Azure SQL Database Ledger
Azure SQL Database LedgerAzure SQL Database Ledger
Azure SQL Database Ledger
 
SQL Server Modern Query Processing
SQL Server Modern Query ProcessingSQL Server Modern Query Processing
SQL Server Modern Query Processing
 
Una web farm bilanciata e scalabile con Microsoft Azure
Una web farm bilanciata e scalabile con Microsoft AzureUna web farm bilanciata e scalabile con Microsoft Azure
Una web farm bilanciata e scalabile con Microsoft Azure
 
Azure Meetup: Azure Storage/Datalake Deep Dive
Azure Meetup: Azure Storage/Datalake Deep DiveAzure Meetup: Azure Storage/Datalake Deep Dive
Azure Meetup: Azure Storage/Datalake Deep Dive
 
Db2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBMDb2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBM
 
Azure sql database
Azure sql databaseAzure sql database
Azure sql database
 
Cassandra + Hadoop: Analisi Batch con Apache Cassandra
Cassandra + Hadoop: Analisi Batch con Apache CassandraCassandra + Hadoop: Analisi Batch con Apache Cassandra
Cassandra + Hadoop: Analisi Batch con Apache Cassandra
 
IaC - Infrastructure as Code, gestire infrastrutture cloud tramite file di co...
IaC - Infrastructure as Code, gestire infrastrutture cloud tramite file di co...IaC - Infrastructure as Code, gestire infrastrutture cloud tramite file di co...
IaC - Infrastructure as Code, gestire infrastrutture cloud tramite file di co...
 
2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL Database2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL Database
 
Azure for Game Developers
Azure for Game DevelopersAzure for Game Developers
Azure for Game Developers
 

Ähnlich wie Azure Data Factory: l'evoluzione della specie della data integration

Windows azure - abbattere tempi e costi di sviluppo
Windows azure - abbattere tempi e costi di sviluppoWindows azure - abbattere tempi e costi di sviluppo
Windows azure - abbattere tempi e costi di sviluppoAndrea Dottor
 
OCP-Architettura e caratteristiche della PaaS
OCP-Architettura e caratteristiche della PaaSOCP-Architettura e caratteristiche della PaaS
OCP-Architettura e caratteristiche della PaaSopencityplatform
 
Power BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT CentralPower BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT CentralMarco Parenzan
 
Power BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT Central Power BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT Central Marco Parenzan
 
Power BI data flow and Azure IoT Central
Power BI data flow and Azure IoT CentralPower BI data flow and Azure IoT Central
Power BI data flow and Azure IoT CentralMarco Parenzan
 
Azure dayroma java, il lato oscuro del cloud
Azure dayroma   java, il lato oscuro del cloudAzure dayroma   java, il lato oscuro del cloud
Azure dayroma java, il lato oscuro del cloudRiccardo Zamana
 
Azure Day Rome Reloaded 2019 - Ingestion nel datalake passando tramite API Ma...
Azure Day Rome Reloaded 2019 - Ingestion nel datalake passando tramite API Ma...Azure Day Rome Reloaded 2019 - Ingestion nel datalake passando tramite API Ma...
Azure Day Rome Reloaded 2019 - Ingestion nel datalake passando tramite API Ma...azuredayit
 
IaaS and PaaS relational databases in the cloud
IaaS and PaaS relational databases in the cloudIaaS and PaaS relational databases in the cloud
IaaS and PaaS relational databases in the cloudGianluca Hotz
 
.NET Core, ASP.NET Core e Linux per il Mobile
.NET Core, ASP.NET Core e Linux per il Mobile.NET Core, ASP.NET Core e Linux per il Mobile
.NET Core, ASP.NET Core e Linux per il MobilePietro Libro
 
ASP.NET Core Services e Linux per il Mobile - Pietro Libro - Codemotion Rome...
ASP.NET Core Services e Linux per il Mobile  - Pietro Libro - Codemotion Rome...ASP.NET Core Services e Linux per il Mobile  - Pietro Libro - Codemotion Rome...
ASP.NET Core Services e Linux per il Mobile - Pietro Libro - Codemotion Rome...Codemotion
 
Azure IoTHub - Roboval 2018
Azure IoTHub - Roboval 2018Azure IoTHub - Roboval 2018
Azure IoTHub - Roboval 2018Andrea Tosato
 
Sviluppare Azure Web Apps
Sviluppare Azure Web AppsSviluppare Azure Web Apps
Sviluppare Azure Web AppsAndrea Dottor
 
Il Cloud Computing
Il Cloud ComputingIl Cloud Computing
Il Cloud Computingzambe92
 
Soluzioni IoT con le tecnologie Microsoft
Soluzioni IoT con le tecnologie MicrosoftSoluzioni IoT con le tecnologie Microsoft
Soluzioni IoT con le tecnologie MicrosoftMassimo Bonanni
 
Multi Cloud essentials
Multi Cloud essentialsMulti Cloud essentials
Multi Cloud essentialsantimo musone
 
ETL on Cloud: Azure Data Factory
ETL on Cloud: Azure Data FactoryETL on Cloud: Azure Data Factory
ETL on Cloud: Azure Data FactoryLeonardo Marcucci
 
Azure No-Sql approach: DocumentDB
Azure No-Sql approach: DocumentDBAzure No-Sql approach: DocumentDB
Azure No-Sql approach: DocumentDBDavide Benvegnù
 
2015.04.23 Azure Community Bootcamp 2015 Keynote Italy
2015.04.23 Azure Community Bootcamp 2015 Keynote Italy2015.04.23 Azure Community Bootcamp 2015 Keynote Italy
2015.04.23 Azure Community Bootcamp 2015 Keynote ItalyMarco Parenzan
 

Ähnlich wie Azure Data Factory: l'evoluzione della specie della data integration (20)

Windows azure - abbattere tempi e costi di sviluppo
Windows azure - abbattere tempi e costi di sviluppoWindows azure - abbattere tempi e costi di sviluppo
Windows azure - abbattere tempi e costi di sviluppo
 
OCP-Architettura e caratteristiche della PaaS
OCP-Architettura e caratteristiche della PaaSOCP-Architettura e caratteristiche della PaaS
OCP-Architettura e caratteristiche della PaaS
 
Power BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT CentralPower BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT Central
 
Power BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT Central Power BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT Central
 
Power BI data flow and Azure IoT Central
Power BI data flow and Azure IoT CentralPower BI data flow and Azure IoT Central
Power BI data flow and Azure IoT Central
 
Azure dayroma java, il lato oscuro del cloud
Azure dayroma   java, il lato oscuro del cloudAzure dayroma   java, il lato oscuro del cloud
Azure dayroma java, il lato oscuro del cloud
 
OCP Paas_ultima
OCP Paas_ultimaOCP Paas_ultima
OCP Paas_ultima
 
Azure Day Rome Reloaded 2019 - Ingestion nel datalake passando tramite API Ma...
Azure Day Rome Reloaded 2019 - Ingestion nel datalake passando tramite API Ma...Azure Day Rome Reloaded 2019 - Ingestion nel datalake passando tramite API Ma...
Azure Day Rome Reloaded 2019 - Ingestion nel datalake passando tramite API Ma...
 
IaaS and PaaS relational databases in the cloud
IaaS and PaaS relational databases in the cloudIaaS and PaaS relational databases in the cloud
IaaS and PaaS relational databases in the cloud
 
.NET Core, ASP.NET Core e Linux per il Mobile
.NET Core, ASP.NET Core e Linux per il Mobile.NET Core, ASP.NET Core e Linux per il Mobile
.NET Core, ASP.NET Core e Linux per il Mobile
 
ASP.NET Core Services e Linux per il Mobile - Pietro Libro - Codemotion Rome...
ASP.NET Core Services e Linux per il Mobile  - Pietro Libro - Codemotion Rome...ASP.NET Core Services e Linux per il Mobile  - Pietro Libro - Codemotion Rome...
ASP.NET Core Services e Linux per il Mobile - Pietro Libro - Codemotion Rome...
 
Azure IoTHub - Roboval 2018
Azure IoTHub - Roboval 2018Azure IoTHub - Roboval 2018
Azure IoTHub - Roboval 2018
 
Sviluppare Azure Web Apps
Sviluppare Azure Web AppsSviluppare Azure Web Apps
Sviluppare Azure Web Apps
 
Power bi
Power biPower bi
Power bi
 
Il Cloud Computing
Il Cloud ComputingIl Cloud Computing
Il Cloud Computing
 
Soluzioni IoT con le tecnologie Microsoft
Soluzioni IoT con le tecnologie MicrosoftSoluzioni IoT con le tecnologie Microsoft
Soluzioni IoT con le tecnologie Microsoft
 
Multi Cloud essentials
Multi Cloud essentialsMulti Cloud essentials
Multi Cloud essentials
 
ETL on Cloud: Azure Data Factory
ETL on Cloud: Azure Data FactoryETL on Cloud: Azure Data Factory
ETL on Cloud: Azure Data Factory
 
Azure No-Sql approach: DocumentDB
Azure No-Sql approach: DocumentDBAzure No-Sql approach: DocumentDB
Azure No-Sql approach: DocumentDB
 
2015.04.23 Azure Community Bootcamp 2015 Keynote Italy
2015.04.23 Azure Community Bootcamp 2015 Keynote Italy2015.04.23 Azure Community Bootcamp 2015 Keynote Italy
2015.04.23 Azure Community Bootcamp 2015 Keynote Italy
 

Mehr von Roberto Messora

Real world Visual Studio Code
Real world Visual Studio CodeReal world Visual Studio Code
Real world Visual Studio CodeRoberto Messora
 
Architetture a Microservizi con Docker Container
Architetture a Microservizi con Docker ContainerArchitetture a Microservizi con Docker Container
Architetture a Microservizi con Docker ContainerRoberto Messora
 
Da JavaScript a TypeScript
Da JavaScript a TypeScriptDa JavaScript a TypeScript
Da JavaScript a TypeScriptRoberto Messora
 
Docker as a hosting target
Docker as a hosting targetDocker as a hosting target
Docker as a hosting targetRoberto Messora
 
Da imperativo a reattivo: Bacon.JS
Da imperativo a reattivo: Bacon.JSDa imperativo a reattivo: Bacon.JS
Da imperativo a reattivo: Bacon.JSRoberto Messora
 
Event streaming pipeline with Windows Azure and ArcGIS Geoevent extension
Event streaming pipeline with Windows Azure and ArcGIS Geoevent extensionEvent streaming pipeline with Windows Azure and ArcGIS Geoevent extension
Event streaming pipeline with Windows Azure and ArcGIS Geoevent extensionRoberto Messora
 
Single Page Applications
Single Page ApplicationsSingle Page Applications
Single Page ApplicationsRoberto Messora
 
Single Page web Application
Single Page web ApplicationSingle Page web Application
Single Page web ApplicationRoberto Messora
 
Javascript avanzato: sfruttare al massimo il web
Javascript avanzato: sfruttare al massimo il webJavascript avanzato: sfruttare al massimo il web
Javascript avanzato: sfruttare al massimo il webRoberto Messora
 
Self-adaptive geospatial web applications
Self-adaptive geospatial web applicationsSelf-adaptive geospatial web applications
Self-adaptive geospatial web applicationsRoberto Messora
 
Web technologies and patterns in HTML5 mapping
Web technologies and patterns in HTML5 mappingWeb technologies and patterns in HTML5 mapping
Web technologies and patterns in HTML5 mappingRoberto Messora
 
MV* presentation frameworks in Javascript: en garde, pret, allez!
MV* presentation frameworks in Javascript: en garde, pret, allez!MV* presentation frameworks in Javascript: en garde, pret, allez!
MV* presentation frameworks in Javascript: en garde, pret, allez!Roberto Messora
 

Mehr von Roberto Messora (16)

Introduzione a Docker
Introduzione a DockerIntroduzione a Docker
Introduzione a Docker
 
Seminario Big Data
Seminario Big DataSeminario Big Data
Seminario Big Data
 
Real world Visual Studio Code
Real world Visual Studio CodeReal world Visual Studio Code
Real world Visual Studio Code
 
Architetture a Microservizi con Docker Container
Architetture a Microservizi con Docker ContainerArchitetture a Microservizi con Docker Container
Architetture a Microservizi con Docker Container
 
Da JavaScript a TypeScript
Da JavaScript a TypeScriptDa JavaScript a TypeScript
Da JavaScript a TypeScript
 
Docker as a hosting target
Docker as a hosting targetDocker as a hosting target
Docker as a hosting target
 
Da imperativo a reattivo: Bacon.JS
Da imperativo a reattivo: Bacon.JSDa imperativo a reattivo: Bacon.JS
Da imperativo a reattivo: Bacon.JS
 
Event streaming pipeline with Windows Azure and ArcGIS Geoevent extension
Event streaming pipeline with Windows Azure and ArcGIS Geoevent extensionEvent streaming pipeline with Windows Azure and ArcGIS Geoevent extension
Event streaming pipeline with Windows Azure and ArcGIS Geoevent extension
 
Single Page Applications
Single Page ApplicationsSingle Page Applications
Single Page Applications
 
Javascript Unit Testing
Javascript Unit TestingJavascript Unit Testing
Javascript Unit Testing
 
Single Page web Application
Single Page web ApplicationSingle Page web Application
Single Page web Application
 
Javascript avanzato: sfruttare al massimo il web
Javascript avanzato: sfruttare al massimo il webJavascript avanzato: sfruttare al massimo il web
Javascript avanzato: sfruttare al massimo il web
 
Self-adaptive geospatial web applications
Self-adaptive geospatial web applicationsSelf-adaptive geospatial web applications
Self-adaptive geospatial web applications
 
Web technologies and patterns in HTML5 mapping
Web technologies and patterns in HTML5 mappingWeb technologies and patterns in HTML5 mapping
Web technologies and patterns in HTML5 mapping
 
Usare Knockout JS
Usare Knockout JSUsare Knockout JS
Usare Knockout JS
 
MV* presentation frameworks in Javascript: en garde, pret, allez!
MV* presentation frameworks in Javascript: en garde, pret, allez!MV* presentation frameworks in Javascript: en garde, pret, allez!
MV* presentation frameworks in Javascript: en garde, pret, allez!
 

Azure Data Factory: l'evoluzione della specie della data integration

  • 1. MARZO 2020 /2020 / JAKALA 11 Azure Data Factory: l'evoluzione della specie della data integration Azure Meetup Milano - AperiTech Edition 7 Aprile 2020
  • 2. APRILE 2020 /2020 / Azure Meetup 2 bit.ly/robymes_azure_aperitech 2
  • 3. APRILE 2020 /2020 / Azure Meetup 3 Agenda • Data Factory: chi, cosa, quando, perchè • Componenti base • Ambiente di esecuzione • Data flow • Monitoring & alerting • Security & Git integration • Pricing
  • 4. APRILE 2020 /2020 / Azure Meetup 4 Azure Data Factory: chi, cosa, quando • Data Factory è il servizio gestito di data integration offerto da Azure • Permette di orchestrare processi ETL/ELT e data preparation, di dati strutturati e non strutturati, progettati ed implementati senza l’uso di codice (no code) • Utilizzabile in tutti quei casi in cui è necessario raccogliere e aggregare dati provenienti da diverse fonti, cloud e on-premise
  • 5. APRILE 2020 /2020 / Azure Meetup 5 Azure Data Factory: perchè • Servizio PaaS con infrastruttura interamente gestita • Disegno e implementazione dei processi completamente senza codice • Disponibilità di una grande quantità di connettori per diverse fonti dati • Semplice gestione dei trigger di avvio dei processi (ad evento o schedulati) • Sistema integrato di monitoraggio e alerting • Costi contenuti • Integrazione con Git e CI/CD
  • 6. APRILE 2020 /2020 / Azure Meetup 6 Azure Data Factory: componenti base • Linked Service: configurazione delle connessioni alle fonti o destinazioni dati tramite connettori dedicati • Dataset: configurazione di uno specifico dataset (tabella, file, JSON, ecc.) all’interno del Linked Service • Pipeline: orchestrazione di una serie di attività di lettura, trasformazione e scrittura sui Dataset • Trigger: configurazione della modalità di avvio delle Pipeline per evento o schedulazione
  • 7. APRILE 2020 /2020 / Azure Meetup 77 Demo Simple Pipeline 7
  • 8. APRILE 2020 /2020 / Azure Meetup 8 Azure Data Factory: ambiente di esecuzione • I Linked Service vengono resi disponibili tramite un Integration Runtime che può essere di tre tipi: • Azure: runtime di default completamente gestito per l’accesso a fonti dati cloud • Self Hosted: runtime da installare e configurare manualmente per l’accesso a fonti dati disponibili tramite Azure Virtual Network e on-premise • Azure SSIS: runtime dedicato specificatamente all’esecuzione lift & shift di pacchetti SQL Server Integration Services sia nel cloud che in Azure Virtual Network e on-premise
  • 9. APRILE 2020 /2020 / Azure Meetup 9 Azure Data Factory: schema integration runtime Integration Runtime Public network Private network Azure Data Flow Data movement Activity dispatch Self-hosted Data movement Activity dispatch Data movement Activity dispatch Azure-SSIS SSIS package execution SSIS package execution
  • 10. APRILE 2020 /2020 / Azure Meetup 10 Azure Data Factory: panoramica integration runtime
  • 11. APRILE 2020 /2020 / Azure Meetup 1111 Demo Self Hosted Integration Runtime 1
  • 12. APRILE 2020 /2020 / Azure Meetup 12 Azure Data Factory: data flow • I Data Flow sono di fatto Pipeline dedicate alla data transformation/preparation che vengono eseguite su cluster Spark completamente gestito • Sono attivabili solo per Dataset disponibili su Azure (es. Azure Storage) tramite l’Azure Integration Runtime • Esistono due tipologie di Data Flow: • Mapping Data Flow: orchestrazione di una serie di attività di data transformation • Wrangling Data Flow (in preview): orchestrazione di una serie di attività di data preparation mediante l’uso del motore di Power Query Online
  • 13. APRILE 2020 /2020 / Azure Meetup 1313 Demo Data Flows 1
  • 14. APRILE 2020 /2020 / Azure Meetup 14 Azure Data Factory: monitoring & alerting • Azure Data Factory offre un ambiente di monitoring & alerting completamente integrato • Il monitoraggio permette di controllare lo stato e lo storico delle esecuzioni delle Pipeline • Permette di analizzare in dettaglio le single attività che compongono sia le Pipeline che i Data Flow, anche in retrospettiva una volta che siano state completate (qualsiasi sia l’esito) • L’alerting permette di definire metriche anche complesse e soglie a cui reagire con una notifica (email, sms, push notification)
  • 15. APRILE 2020 /2020 / Azure Meetup 15 Azure Data Factory: security & git integration • Il modello di sicurezza su cui si basa Azure Data Factory è quello classico RBAC traimite i ruoli Azure: • Creazione istanza Data Factory: Subscription Administrator, Owner, Contributor • Gestione Data Factory: Data Factory Contributor • Limitazione gestione Data Factory: va definito un custom Azure Role • Azure Data Factory fornisce l’integrazione nativa con Git tramite Azure DevOps e GitHub • ATTENZIONE: la pubblicazione effettiva in produzione delle modifiche può essere fatta solo dalla branch master, in caso di branch di sviluppo occorre prima eseguire una merge
  • 16. APRILE 2020 /2020 / Azure Meetup 16 Azure Data Factory: pricing • Il modello di pricing di Azure Data Factory è suddiviso per: • Data Pipeline: due diversi modelli di pricing per: • Orchestrazione & Esecuzione: pay per use basato sul numero di esecuzioni delle Pipeline e delle single attività, differenziato per tipologia di Integration Runtime • Data Flow: pay per use basato sul sizing delle VM, numero di nodi del cluster Spark • SQL Server Integration Services: pay per use basato sul sizing delle VM, numero di nodi e licenza di SSIS
  • 17. MARZO 2020 /2020 / JAKALA 1717 Roberto Messora Head of Business Integration & Architectures roberto.messora@jakala.com https://twitter.com/robymes
  • 18. MARZO 2020 /2020 / JAKALA 18