SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
SQL Server Data
Virtualization with Polybase
Gianluca Hotz, President, UGISS.ORG
Explore your
PASS
community
Free online
webinar events
Connect with the global
data community
Local user groups
around the world
Online special
interest user groups
Learningon-demand
and deliveredto you
Get involved
Own your career with interactive learning built
by community and guided by data experts.
Get involved. Get ahead.
.org
Missed PASS Summit 2019?
Get the Recordings
Download all PASS Summit sessions on
Data Management, Analytics, or
Architecture for only $399 USD
More options available at
PASSstuff.com
We are covering all bases to ensure our community can continue reaching new and exciting heights. Plans
are underway for the in-person event you all know and love along with a new venture, a new opportunity:
a PASS Summit 2020 Virtual Event.
Find out more at PASS.org/summit
Thank you to
our Global
Sponsors and
Supporters
Thank you to
our Local
Sponsors and
Supporters
This event was sponsoredby Microsoft
Learn more about SQL Server 2019 today:
-Get free training: aka.ms/sqlworkshops
-Download the SQL19 eBook: aka.ms/sql19_ebook
Chi sono?
Gianluca Hotz | @glhotz | ghotz@ugiss.org
Consulente indipendente
20+ anni su SQL Server (dalla 4.21 nel 1996)
Modellazione e sviluppo database, dimensionamento e amministrazione
database server, aggiornamenti e migrazioni, performance tuning
Community
20+ anni Microsoft MVP SQL Server/Data Platform (dal 1998)
VMware Experts SQL Server
Fondatore e presidente UGISS (PASS Chapter)
Co-organizzatore DAMAG Meetup Community
Problema
Sistemi DSS/OLAP/DWH necessitano di processi
ETL (Extract, Transform, Load)
ELT (Extract, Load, Transform)
Causano «Data Movement»!
Mitigato da virtualizzazione accesso ai dati
Data Movement
Costi
Costi storage duplicati
Sforzo per costruire/mantenere pipeline dati
Velocità
Tempo integrazione nuovi dati -> sfuggono opportunità!
Latenza disponibilità dati -> sfuggono opportunità
Sicurezza
Superfice di attacco più ampia
Potenziale inconsistenza politiche di sicurezza
Qualità
Pipeline dati possono introdurre problemi di qualità…
Compliance
Maggiori problemi di governance
Virtualizzazione
https://en.wikipedia.org/wiki/Data_virtualization
“Unlike the traditional extract, transform, load (ETL) process, the data
remains in place, and real-time access is given to the source system for the
data. This reduces the risk of data errors, of the workload moving data
around that may never be used, and it does not attempt to impose a single
data model on the data”
▪ Dati rimangono dove sono
▪ Viene dato accesso in tempo reale al dato
▪ Non si cerca di imporre un solo modello…
Virtualizzazione e SQL Server
Open Data Service Gateway (< SQL Server 7.0!!)
Linked Servers
PolyBase
Linked Servers
Componenti
OLE DB provider
OLE DB data source
Utilizzo
Accesso a fonti dati esterne eterogenee
Query e transazioni distribuite
Supporto
SQL Server
Azure SQL Database Managed Instance
limitato SQL Database/SQL Database M.I./SQL Server
DEMO:
Linked Servers
PolyBase
Distributed Compute Engine
Integrato con SQL Server
Combina fonti eterogenee tramite
query distribuite
Componenti Virtualizzazione
External Data Source
External Tables
Supporto PolyBase
SQL Server 2016+
Azure Blob Storage, Hadoop (Cloudera or Hortonworks)
(SQL Server 2017+)
Operazioni BULK INSERT/OPENROWSET Blob Storage
SQL Server 2019
SQL Server (all flavors), Oracle, Teradata, MongoDB, CosmosDB (Mongo
API)
ODBC Generic Type (e.g. DB2, SAP Hana, Excel, …)
Architettura PolyBase
SQL Engine
Polybase
Engine
Polybase Data
Movement
Service
SQL Engine
Polybase
Engine
Polybase Data
Movement
Service
SQL Engine
Polybase
Engine
Polybase Data
Movement
Service
mpdwsvc.exe
DEMO: PolyBase
PolyBase con Azure SQL Database
Bug nella versione 2019 RTM
https://github.com/MicrosoftDocs/sql-docs/issues/3727
Bisogna specificare database nel data source
CONNECTION_OPTIONS = 'Database=pbdemo’
Fix non documentato nella GDR
https://support.microsoft.com/en-us/help/4517790
Scale-Out con Linked Server
Distributed Partioned Views
Aka Federated Database Server in SQL Server 2000
Partizionamento orizzontale tramite viste
Tabelle con partizioni dati distribuite su più istanze
Vincoli CHECK identificano la partizione
Viste su tutti i nodi con SELECT * […] UNION ALL
Query Processor riconosce lo scenario
Distribuisce il carico eseguendo query remote/locali
Predicato deve operare su colonna del vincolo CHECK
Disponibili ancora solo con edizione Enterprise
Funzionalità poco documentata…
DEMO: Viste partizionate distribuite
DEMO: PolyBase Scale-Out Groups
A confronto
External Tables
DatabaseScoped
ODBC Drivers
Read-only*
Scale out queries with push-down
Failover with AG
Basic authentication
Distributed Transactions not supported
Better for OLAP workloads
Linked Servers
Instance Scoped
OLEDBProviders
Read/write
Single threaded queries with (limited) push-down
Requires separateconfig from AG
Basic and integrated authentication
Distributed Transactions supported
Better for OLTP workloads
Scale-Out OLTP Azure SQL Database
Elastic Database Queries
Supporto T-SQL per query distribuite
CREATE EXTERNAL DATA SOURCE
CREATE EXTERNAL TABLE
Partizionamento verticale: «cross-
database queries»
TYPE = RDBMS
Partizionamento orizzontale:
«Sharding»
TYPE = SHARD_MAP_MANAGER
https://azure.microsoft.com/en-
us/documentation/articles/sql-
database-elastic-query-overview
Scale-Out OLAP
Azure Synapse Analytics
aka Azure SQL Data Warehouse
aka APS/PDW in Azure
PolyBase è nato qui, principalmente per integrazione HDFS
Altre soluzioni virtualizzazione OLAP
Power BI
Limite memoria portato da 10GB a 400GB
20-30% circa per esecuzione query
https://docs.microsoft.com/en-us/power-bi/power-bi-data-sources
Azure Analysis Services
https://docs.microsoft.com/en-us/azure/analysis-services/analysis-services-
datasource
On-Premise Data Gateway
Può essere usato da Power BI o Azure Analysis Service
https://docs.microsoft.com/en-us/data-integration/gateway/service-
gateway-onprem
SQL Server Big Data Cluster
Compute pool
SQL Compute
Node
SQL Compute
Node
SQL Compute
Node
…
Compute pool
SQL Compute
Node
IoT data
Persistent storage
Kubernetes pod
…
SQL
Serve
r
Spark
HDFS Data Node
SQL
Serve
r
Spark
HDFS Data Node
SQL
Serve
r
Spark
HDFS Data Node
Directly
read from
HDFS
Storage pool
SQL Server
master instance
Node Node Node Node Node Node Node
Analytics
Custom
apps BI
SQL
Data Mart (Cache)
SQL Data
Node
SQL Data
Node
Compute pool
SQL Compute
Node
Storage Storage
https://docs.microsoft.com/en-us/sql/big-data-cluster/big-data-cluster-overview
Risorse
Thank you
Ricordatevi di
compilare il feedback
form ☺
https://speakerscore.
com/8P1Q
#SqlSat921
SQL Server Data Virtualization with Polybase

Weitere ähnliche Inhalte

Was ist angesagt?

Azure SQL Database Ledger
Azure SQL Database LedgerAzure SQL Database Ledger
Azure SQL Database LedgerGianluca Hotz
 
SQL Server Failover Cluster Instances con Amazon FSx in AWS
SQL Server Failover Cluster Instances con Amazon FSx in AWSSQL Server Failover Cluster Instances con Amazon FSx in AWS
SQL Server Failover Cluster Instances con Amazon FSx in AWSGianluca Hotz
 
Mettere in sicurezza ambienti sql server
Mettere in sicurezza ambienti sql serverMettere in sicurezza ambienti sql server
Mettere in sicurezza ambienti sql serverGianluca Hotz
 
Azure PaaS databases
Azure PaaS databasesAzure PaaS databases
Azure PaaS databasesGianluca Hotz
 
SQL Server Workload Profiling
SQL Server Workload ProfilingSQL Server Workload Profiling
SQL Server Workload ProfilingGianluca Hotz
 
SQL Server Failover Cluster Instances con Azure Managed Disks
SQL Server Failover Cluster Instances con Azure Managed DisksSQL Server Failover Cluster Instances con Azure Managed Disks
SQL Server Failover Cluster Instances con Azure Managed DisksGianluca Hotz
 
Best Practices on SQL Server
Best Practices on SQL ServerBest Practices on SQL Server
Best Practices on SQL ServerGianluca Hotz
 
Azure Data Factory: l'evoluzione della specie della data integration
Azure Data Factory: l'evoluzione della specie della data integrationAzure Data Factory: l'evoluzione della specie della data integration
Azure Data Factory: l'evoluzione della specie della data integrationRoberto Messora
 
SQL Server Modern Query Processing
SQL Server Modern Query ProcessingSQL Server Modern Query Processing
SQL Server Modern Query ProcessingGianluca Hotz
 
Azure PaaS databases
Azure PaaS databasesAzure PaaS databases
Azure PaaS databasesGianluca Hotz
 
Novità di SQL Server 2017
Novità di SQL Server 2017Novità di SQL Server 2017
Novità di SQL Server 2017Gianluca Hotz
 
Sql start!2019 Migliorare la produttività per lo sviluppo su SQL Server
Sql start!2019 Migliorare la produttività per lo sviluppo su SQL ServerSql start!2019 Migliorare la produttività per lo sviluppo su SQL Server
Sql start!2019 Migliorare la produttività per lo sviluppo su SQL ServerAlessandro Alpi
 
Azure for Game Developers
Azure for Game DevelopersAzure for Game Developers
Azure for Game DevelopersMarco Parenzan
 
Cassandra + Hadoop: Analisi Batch con Apache Cassandra
Cassandra + Hadoop: Analisi Batch con Apache CassandraCassandra + Hadoop: Analisi Batch con Apache Cassandra
Cassandra + Hadoop: Analisi Batch con Apache CassandraJeremy Hanna
 
Code quality e test automatizzati con JavaScript
Code quality e test automatizzati con JavaScriptCode quality e test automatizzati con JavaScript
Code quality e test automatizzati con JavaScriptRoberto Messora
 
WPC2012 Windows Azure - Architetture e costi nell'era del cloud
WPC2012 Windows Azure - Architetture e costi nell'era del cloudWPC2012 Windows Azure - Architetture e costi nell'era del cloud
WPC2012 Windows Azure - Architetture e costi nell'era del cloudVito Flavio Lorusso
 
JBoss Data Grid Tech Lab
JBoss Data Grid Tech LabJBoss Data Grid Tech Lab
JBoss Data Grid Tech LabUgo Landini
 

Was ist angesagt? (20)

Azure SQL Database Ledger
Azure SQL Database LedgerAzure SQL Database Ledger
Azure SQL Database Ledger
 
SQL Server Failover Cluster Instances con Amazon FSx in AWS
SQL Server Failover Cluster Instances con Amazon FSx in AWSSQL Server Failover Cluster Instances con Amazon FSx in AWS
SQL Server Failover Cluster Instances con Amazon FSx in AWS
 
Mettere in sicurezza ambienti sql server
Mettere in sicurezza ambienti sql serverMettere in sicurezza ambienti sql server
Mettere in sicurezza ambienti sql server
 
Azure PaaS databases
Azure PaaS databasesAzure PaaS databases
Azure PaaS databases
 
SQL Server Workload Profiling
SQL Server Workload ProfilingSQL Server Workload Profiling
SQL Server Workload Profiling
 
SQL Server Failover Cluster Instances con Azure Managed Disks
SQL Server Failover Cluster Instances con Azure Managed DisksSQL Server Failover Cluster Instances con Azure Managed Disks
SQL Server Failover Cluster Instances con Azure Managed Disks
 
Best Practices on SQL Server
Best Practices on SQL ServerBest Practices on SQL Server
Best Practices on SQL Server
 
Azure Data Factory: l'evoluzione della specie della data integration
Azure Data Factory: l'evoluzione della specie della data integrationAzure Data Factory: l'evoluzione della specie della data integration
Azure Data Factory: l'evoluzione della specie della data integration
 
SQL Server Modern Query Processing
SQL Server Modern Query ProcessingSQL Server Modern Query Processing
SQL Server Modern Query Processing
 
Data flow
Data flowData flow
Data flow
 
Azure PaaS databases
Azure PaaS databasesAzure PaaS databases
Azure PaaS databases
 
Novità di SQL Server 2017
Novità di SQL Server 2017Novità di SQL Server 2017
Novità di SQL Server 2017
 
Sql start!2019 Migliorare la produttività per lo sviluppo su SQL Server
Sql start!2019 Migliorare la produttività per lo sviluppo su SQL ServerSql start!2019 Migliorare la produttività per lo sviluppo su SQL Server
Sql start!2019 Migliorare la produttività per lo sviluppo su SQL Server
 
Azure for Game Developers
Azure for Game DevelopersAzure for Game Developers
Azure for Game Developers
 
Azure sql database
Azure sql databaseAzure sql database
Azure sql database
 
Cassandra + Hadoop: Analisi Batch con Apache Cassandra
Cassandra + Hadoop: Analisi Batch con Apache CassandraCassandra + Hadoop: Analisi Batch con Apache Cassandra
Cassandra + Hadoop: Analisi Batch con Apache Cassandra
 
Code quality e test automatizzati con JavaScript
Code quality e test automatizzati con JavaScriptCode quality e test automatizzati con JavaScript
Code quality e test automatizzati con JavaScript
 
OCP Paas_ultima
OCP Paas_ultimaOCP Paas_ultima
OCP Paas_ultima
 
WPC2012 Windows Azure - Architetture e costi nell'era del cloud
WPC2012 Windows Azure - Architetture e costi nell'era del cloudWPC2012 Windows Azure - Architetture e costi nell'era del cloud
WPC2012 Windows Azure - Architetture e costi nell'era del cloud
 
JBoss Data Grid Tech Lab
JBoss Data Grid Tech LabJBoss Data Grid Tech Lab
JBoss Data Grid Tech Lab
 

Ähnlich wie SQL Server Data Virtualization with Polybase

Win05 accesso ai dati in win 8
Win05   accesso ai dati in win 8Win05   accesso ai dati in win 8
Win05 accesso ai dati in win 8DotNetCampus
 
Power BI: Introduzione ai dataflow e alla preparazione dei dati self-service
Power BI: Introduzione ai dataflow e alla preparazione dei dati self-servicePower BI: Introduzione ai dataflow e alla preparazione dei dati self-service
Power BI: Introduzione ai dataflow e alla preparazione dei dati self-serviceMarco Pozzan
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & AnalyticsDavide Mauri
 
Introduzione a Microsoft Azure
Introduzione a Microsoft AzureIntroduzione a Microsoft Azure
Introduzione a Microsoft AzureRoberto Albano
 
Rendere flessibili e trasformare architetture IT di vecchio tipo: passaggio d...
Rendere flessibili e trasformare architetture IT di vecchio tipo:passaggio d...Rendere flessibili e trasformare architetture IT di vecchio tipo:passaggio d...
Rendere flessibili e trasformare architetture IT di vecchio tipo: passaggio d...Emanuele Della Valle
 
Power BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT CentralPower BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT CentralMarco Parenzan
 
2015.04.23 Azure Community Bootcamp 2015 Keynote Italy
2015.04.23 Azure Community Bootcamp 2015 Keynote Italy2015.04.23 Azure Community Bootcamp 2015 Keynote Italy
2015.04.23 Azure Community Bootcamp 2015 Keynote ItalyMarco Parenzan
 
Tesi Discussione
Tesi DiscussioneTesi Discussione
Tesi DiscussioneYeser Rema
 
OCP-Architettura e caratteristiche della PaaS
OCP-Architettura e caratteristiche della PaaSOCP-Architettura e caratteristiche della PaaS
OCP-Architettura e caratteristiche della PaaSopencityplatform
 
2015.01.09 - Principi del Cloud Computing e migrazione delle applicazioni mod...
2015.01.09 - Principi del Cloud Computing e migrazione delle applicazioni mod...2015.01.09 - Principi del Cloud Computing e migrazione delle applicazioni mod...
2015.01.09 - Principi del Cloud Computing e migrazione delle applicazioni mod...Marco Parenzan
 
Smau Padova 2011 Leonardo Torretta - windows
Smau Padova 2011 Leonardo Torretta - windowsSmau Padova 2011 Leonardo Torretta - windows
Smau Padova 2011 Leonardo Torretta - windowsSMAU
 
Power BI data flow and Azure IoT Central
Power BI data flow and Azure IoT CentralPower BI data flow and Azure IoT Central
Power BI data flow and Azure IoT CentralMarco Parenzan
 
Integrazione tra SharePoint 2010 e Windows Azure (Azure Day)
Integrazione tra SharePoint 2010 e Windows Azure (Azure Day)Integrazione tra SharePoint 2010 e Windows Azure (Azure Day)
Integrazione tra SharePoint 2010 e Windows Azure (Azure Day)Giuseppe Marchi
 
1° Seminario CRUI - GARR: Una Cloud federata per università e ricerca, come u...
1° Seminario CRUI - GARR: Una Cloud federata per università e ricerca, come u...1° Seminario CRUI - GARR: Una Cloud federata per università e ricerca, come u...
1° Seminario CRUI - GARR: Una Cloud federata per università e ricerca, come u...Jürgen Ambrosi
 
Differenze tra Alfresco Community ed Enterprise
Differenze tra Alfresco Community ed EnterpriseDifferenze tra Alfresco Community ed Enterprise
Differenze tra Alfresco Community ed EnterpriseSoftInstigate
 
Azure dayroma java, il lato oscuro del cloud
Azure dayroma   java, il lato oscuro del cloudAzure dayroma   java, il lato oscuro del cloud
Azure dayroma java, il lato oscuro del cloudRiccardo Zamana
 
Azure WebSites for Developers
Azure WebSites for DevelopersAzure WebSites for Developers
Azure WebSites for DevelopersLuca Milan
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligenceWebeing.net
 
GreenVulcano ESB Technical Overview (ITA)
GreenVulcano ESB Technical Overview (ITA)GreenVulcano ESB Technical Overview (ITA)
GreenVulcano ESB Technical Overview (ITA)greenvulcano
 

Ähnlich wie SQL Server Data Virtualization with Polybase (20)

Win05 accesso ai dati in win 8
Win05   accesso ai dati in win 8Win05   accesso ai dati in win 8
Win05 accesso ai dati in win 8
 
Power bi
Power biPower bi
Power bi
 
Power BI: Introduzione ai dataflow e alla preparazione dei dati self-service
Power BI: Introduzione ai dataflow e alla preparazione dei dati self-servicePower BI: Introduzione ai dataflow e alla preparazione dei dati self-service
Power BI: Introduzione ai dataflow e alla preparazione dei dati self-service
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & Analytics
 
Introduzione a Microsoft Azure
Introduzione a Microsoft AzureIntroduzione a Microsoft Azure
Introduzione a Microsoft Azure
 
Rendere flessibili e trasformare architetture IT di vecchio tipo: passaggio d...
Rendere flessibili e trasformare architetture IT di vecchio tipo:passaggio d...Rendere flessibili e trasformare architetture IT di vecchio tipo:passaggio d...
Rendere flessibili e trasformare architetture IT di vecchio tipo: passaggio d...
 
Power BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT CentralPower BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT Central
 
2015.04.23 Azure Community Bootcamp 2015 Keynote Italy
2015.04.23 Azure Community Bootcamp 2015 Keynote Italy2015.04.23 Azure Community Bootcamp 2015 Keynote Italy
2015.04.23 Azure Community Bootcamp 2015 Keynote Italy
 
Tesi Discussione
Tesi DiscussioneTesi Discussione
Tesi Discussione
 
OCP-Architettura e caratteristiche della PaaS
OCP-Architettura e caratteristiche della PaaSOCP-Architettura e caratteristiche della PaaS
OCP-Architettura e caratteristiche della PaaS
 
2015.01.09 - Principi del Cloud Computing e migrazione delle applicazioni mod...
2015.01.09 - Principi del Cloud Computing e migrazione delle applicazioni mod...2015.01.09 - Principi del Cloud Computing e migrazione delle applicazioni mod...
2015.01.09 - Principi del Cloud Computing e migrazione delle applicazioni mod...
 
Smau Padova 2011 Leonardo Torretta - windows
Smau Padova 2011 Leonardo Torretta - windowsSmau Padova 2011 Leonardo Torretta - windows
Smau Padova 2011 Leonardo Torretta - windows
 
Power BI data flow and Azure IoT Central
Power BI data flow and Azure IoT CentralPower BI data flow and Azure IoT Central
Power BI data flow and Azure IoT Central
 
Integrazione tra SharePoint 2010 e Windows Azure (Azure Day)
Integrazione tra SharePoint 2010 e Windows Azure (Azure Day)Integrazione tra SharePoint 2010 e Windows Azure (Azure Day)
Integrazione tra SharePoint 2010 e Windows Azure (Azure Day)
 
1° Seminario CRUI - GARR: Una Cloud federata per università e ricerca, come u...
1° Seminario CRUI - GARR: Una Cloud federata per università e ricerca, come u...1° Seminario CRUI - GARR: Una Cloud federata per università e ricerca, come u...
1° Seminario CRUI - GARR: Una Cloud federata per università e ricerca, come u...
 
Differenze tra Alfresco Community ed Enterprise
Differenze tra Alfresco Community ed EnterpriseDifferenze tra Alfresco Community ed Enterprise
Differenze tra Alfresco Community ed Enterprise
 
Azure dayroma java, il lato oscuro del cloud
Azure dayroma   java, il lato oscuro del cloudAzure dayroma   java, il lato oscuro del cloud
Azure dayroma java, il lato oscuro del cloud
 
Azure WebSites for Developers
Azure WebSites for DevelopersAzure WebSites for Developers
Azure WebSites for Developers
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
GreenVulcano ESB Technical Overview (ITA)
GreenVulcano ESB Technical Overview (ITA)GreenVulcano ESB Technical Overview (ITA)
GreenVulcano ESB Technical Overview (ITA)
 

Mehr von Gianluca Hotz

Multitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseMultitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseGianluca Hotz
 
Microsoft SQL Server PaaS (Platform as a Service)
Microsoft SQL Server PaaS (Platform as a Service)Microsoft SQL Server PaaS (Platform as a Service)
Microsoft SQL Server PaaS (Platform as a Service)Gianluca Hotz
 
SQL Server 2022 Programmability & Performance
SQL Server 2022 Programmability & PerformanceSQL Server 2022 Programmability & Performance
SQL Server 2022 Programmability & PerformanceGianluca Hotz
 
SQL Server 2022 Intelligent Query Processing
SQL Server 2022 Intelligent Query ProcessingSQL Server 2022 Intelligent Query Processing
SQL Server 2022 Intelligent Query ProcessingGianluca Hotz
 
Le novità di SQL Server 2022
Le novità di SQL Server 2022Le novità di SQL Server 2022
Le novità di SQL Server 2022Gianluca Hotz
 
IaaS and PaaS relational databases in the cloud
IaaS and PaaS relational databases in the cloudIaaS and PaaS relational databases in the cloud
IaaS and PaaS relational databases in the cloudGianluca Hotz
 
Data Integrity with SQL Database Ledger
Data Integrity with SQL Database LedgerData Integrity with SQL Database Ledger
Data Integrity with SQL Database LedgerGianluca Hotz
 
Best Practices for Running Microsoft SQL Server on AWS
Best Practices for Running Microsoft SQL Server on AWSBest Practices for Running Microsoft SQL Server on AWS
Best Practices for Running Microsoft SQL Server on AWSGianluca Hotz
 
SQL Server Modernization
SQL Server ModernizationSQL Server Modernization
SQL Server ModernizationGianluca Hotz
 
Le novità di sql server 2019
Le novità di sql server 2019Le novità di sql server 2019
Le novità di sql server 2019Gianluca Hotz
 
SQL Server 2019 CTP 2.5
SQL Server 2019 CTP 2.5SQL Server 2019 CTP 2.5
SQL Server 2019 CTP 2.5Gianluca Hotz
 
Azure PaaS databases
Azure PaaS databasesAzure PaaS databases
Azure PaaS databasesGianluca Hotz
 
SQL Server 2019 CTP2.4
SQL Server 2019 CTP2.4SQL Server 2019 CTP2.4
SQL Server 2019 CTP2.4Gianluca Hotz
 
SQL Server 2019 ctp2.2
SQL Server 2019 ctp2.2SQL Server 2019 ctp2.2
SQL Server 2019 ctp2.2Gianluca Hotz
 

Mehr von Gianluca Hotz (14)

Multitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseMultitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL Database
 
Microsoft SQL Server PaaS (Platform as a Service)
Microsoft SQL Server PaaS (Platform as a Service)Microsoft SQL Server PaaS (Platform as a Service)
Microsoft SQL Server PaaS (Platform as a Service)
 
SQL Server 2022 Programmability & Performance
SQL Server 2022 Programmability & PerformanceSQL Server 2022 Programmability & Performance
SQL Server 2022 Programmability & Performance
 
SQL Server 2022 Intelligent Query Processing
SQL Server 2022 Intelligent Query ProcessingSQL Server 2022 Intelligent Query Processing
SQL Server 2022 Intelligent Query Processing
 
Le novità di SQL Server 2022
Le novità di SQL Server 2022Le novità di SQL Server 2022
Le novità di SQL Server 2022
 
IaaS and PaaS relational databases in the cloud
IaaS and PaaS relational databases in the cloudIaaS and PaaS relational databases in the cloud
IaaS and PaaS relational databases in the cloud
 
Data Integrity with SQL Database Ledger
Data Integrity with SQL Database LedgerData Integrity with SQL Database Ledger
Data Integrity with SQL Database Ledger
 
Best Practices for Running Microsoft SQL Server on AWS
Best Practices for Running Microsoft SQL Server on AWSBest Practices for Running Microsoft SQL Server on AWS
Best Practices for Running Microsoft SQL Server on AWS
 
SQL Server Modernization
SQL Server ModernizationSQL Server Modernization
SQL Server Modernization
 
Le novità di sql server 2019
Le novità di sql server 2019Le novità di sql server 2019
Le novità di sql server 2019
 
SQL Server 2019 CTP 2.5
SQL Server 2019 CTP 2.5SQL Server 2019 CTP 2.5
SQL Server 2019 CTP 2.5
 
Azure PaaS databases
Azure PaaS databasesAzure PaaS databases
Azure PaaS databases
 
SQL Server 2019 CTP2.4
SQL Server 2019 CTP2.4SQL Server 2019 CTP2.4
SQL Server 2019 CTP2.4
 
SQL Server 2019 ctp2.2
SQL Server 2019 ctp2.2SQL Server 2019 ctp2.2
SQL Server 2019 ctp2.2
 

SQL Server Data Virtualization with Polybase

  • 1. SQL Server Data Virtualization with Polybase Gianluca Hotz, President, UGISS.ORG
  • 2. Explore your PASS community Free online webinar events Connect with the global data community Local user groups around the world Online special interest user groups Learningon-demand and deliveredto you Get involved Own your career with interactive learning built by community and guided by data experts. Get involved. Get ahead. .org
  • 3. Missed PASS Summit 2019? Get the Recordings Download all PASS Summit sessions on Data Management, Analytics, or Architecture for only $399 USD More options available at PASSstuff.com
  • 4. We are covering all bases to ensure our community can continue reaching new and exciting heights. Plans are underway for the in-person event you all know and love along with a new venture, a new opportunity: a PASS Summit 2020 Virtual Event. Find out more at PASS.org/summit
  • 5. Thank you to our Global Sponsors and Supporters
  • 6. Thank you to our Local Sponsors and Supporters
  • 7. This event was sponsoredby Microsoft Learn more about SQL Server 2019 today: -Get free training: aka.ms/sqlworkshops -Download the SQL19 eBook: aka.ms/sql19_ebook
  • 8. Chi sono? Gianluca Hotz | @glhotz | ghotz@ugiss.org Consulente indipendente 20+ anni su SQL Server (dalla 4.21 nel 1996) Modellazione e sviluppo database, dimensionamento e amministrazione database server, aggiornamenti e migrazioni, performance tuning Community 20+ anni Microsoft MVP SQL Server/Data Platform (dal 1998) VMware Experts SQL Server Fondatore e presidente UGISS (PASS Chapter) Co-organizzatore DAMAG Meetup Community
  • 9. Problema Sistemi DSS/OLAP/DWH necessitano di processi ETL (Extract, Transform, Load) ELT (Extract, Load, Transform) Causano «Data Movement»! Mitigato da virtualizzazione accesso ai dati
  • 10. Data Movement Costi Costi storage duplicati Sforzo per costruire/mantenere pipeline dati Velocità Tempo integrazione nuovi dati -> sfuggono opportunità! Latenza disponibilità dati -> sfuggono opportunità Sicurezza Superfice di attacco più ampia Potenziale inconsistenza politiche di sicurezza Qualità Pipeline dati possono introdurre problemi di qualità… Compliance Maggiori problemi di governance
  • 11. Virtualizzazione https://en.wikipedia.org/wiki/Data_virtualization “Unlike the traditional extract, transform, load (ETL) process, the data remains in place, and real-time access is given to the source system for the data. This reduces the risk of data errors, of the workload moving data around that may never be used, and it does not attempt to impose a single data model on the data” ▪ Dati rimangono dove sono ▪ Viene dato accesso in tempo reale al dato ▪ Non si cerca di imporre un solo modello…
  • 12. Virtualizzazione e SQL Server Open Data Service Gateway (< SQL Server 7.0!!) Linked Servers PolyBase
  • 13. Linked Servers Componenti OLE DB provider OLE DB data source Utilizzo Accesso a fonti dati esterne eterogenee Query e transazioni distribuite Supporto SQL Server Azure SQL Database Managed Instance limitato SQL Database/SQL Database M.I./SQL Server
  • 15. PolyBase Distributed Compute Engine Integrato con SQL Server Combina fonti eterogenee tramite query distribuite Componenti Virtualizzazione External Data Source External Tables
  • 16. Supporto PolyBase SQL Server 2016+ Azure Blob Storage, Hadoop (Cloudera or Hortonworks) (SQL Server 2017+) Operazioni BULK INSERT/OPENROWSET Blob Storage SQL Server 2019 SQL Server (all flavors), Oracle, Teradata, MongoDB, CosmosDB (Mongo API) ODBC Generic Type (e.g. DB2, SAP Hana, Excel, …)
  • 17. Architettura PolyBase SQL Engine Polybase Engine Polybase Data Movement Service SQL Engine Polybase Engine Polybase Data Movement Service SQL Engine Polybase Engine Polybase Data Movement Service mpdwsvc.exe
  • 19. PolyBase con Azure SQL Database Bug nella versione 2019 RTM https://github.com/MicrosoftDocs/sql-docs/issues/3727 Bisogna specificare database nel data source CONNECTION_OPTIONS = 'Database=pbdemo’ Fix non documentato nella GDR https://support.microsoft.com/en-us/help/4517790
  • 20. Scale-Out con Linked Server Distributed Partioned Views Aka Federated Database Server in SQL Server 2000 Partizionamento orizzontale tramite viste Tabelle con partizioni dati distribuite su più istanze Vincoli CHECK identificano la partizione Viste su tutti i nodi con SELECT * […] UNION ALL Query Processor riconosce lo scenario Distribuisce il carico eseguendo query remote/locali Predicato deve operare su colonna del vincolo CHECK Disponibili ancora solo con edizione Enterprise Funzionalità poco documentata…
  • 23. A confronto External Tables DatabaseScoped ODBC Drivers Read-only* Scale out queries with push-down Failover with AG Basic authentication Distributed Transactions not supported Better for OLAP workloads Linked Servers Instance Scoped OLEDBProviders Read/write Single threaded queries with (limited) push-down Requires separateconfig from AG Basic and integrated authentication Distributed Transactions supported Better for OLTP workloads
  • 24. Scale-Out OLTP Azure SQL Database Elastic Database Queries Supporto T-SQL per query distribuite CREATE EXTERNAL DATA SOURCE CREATE EXTERNAL TABLE Partizionamento verticale: «cross- database queries» TYPE = RDBMS Partizionamento orizzontale: «Sharding» TYPE = SHARD_MAP_MANAGER https://azure.microsoft.com/en- us/documentation/articles/sql- database-elastic-query-overview
  • 25. Scale-Out OLAP Azure Synapse Analytics aka Azure SQL Data Warehouse aka APS/PDW in Azure PolyBase è nato qui, principalmente per integrazione HDFS
  • 26. Altre soluzioni virtualizzazione OLAP Power BI Limite memoria portato da 10GB a 400GB 20-30% circa per esecuzione query https://docs.microsoft.com/en-us/power-bi/power-bi-data-sources Azure Analysis Services https://docs.microsoft.com/en-us/azure/analysis-services/analysis-services- datasource On-Premise Data Gateway Può essere usato da Power BI o Azure Analysis Service https://docs.microsoft.com/en-us/data-integration/gateway/service- gateway-onprem
  • 27. SQL Server Big Data Cluster Compute pool SQL Compute Node SQL Compute Node SQL Compute Node … Compute pool SQL Compute Node IoT data Persistent storage Kubernetes pod … SQL Serve r Spark HDFS Data Node SQL Serve r Spark HDFS Data Node SQL Serve r Spark HDFS Data Node Directly read from HDFS Storage pool SQL Server master instance Node Node Node Node Node Node Node Analytics Custom apps BI SQL Data Mart (Cache) SQL Data Node SQL Data Node Compute pool SQL Compute Node Storage Storage https://docs.microsoft.com/en-us/sql/big-data-cluster/big-data-cluster-overview
  • 29. Thank you Ricordatevi di compilare il feedback form ☺ https://speakerscore. com/8P1Q #SqlSat921