7. • Geneza Azure SQL DWH
• Architektura
• Ładowanie danych
• Zapytania SQL i raportowanie
• Demo
Agenda
7
8. • Usługa PaaS na platformie Azure
• Hurtownia danych „on demand”
• Implementuje podzbiór T-SQL
• Wydajna, skalowalna, elastyczna
• Architektura MPP, oparta na SQL Server
• SQL Server PDW/APS w chmurze
Azure SQL Data Warehouse
8
13. • Parallel Data Warehouse – SQL Server w wersji MPP
• HDInsight – Hadoop, zintegrowany z platformą MS
• PolyBase – łączenie w locie danych PDW i HDInsight
• Skalowalny, wydajny, drogi
• On-premises (HP, Dell, Quanta)
Microsoft APS
13
Analytics Platform System
SQL Server
2012 PDW
Microsoft
HDInsight
PolyBase
15. • Analogicznie do HDInsight:
• Tani, trwały Storage
• Compute „on demand”
• Pause/Start, Scale
• Dane pozostają nienaruszone, nie ma potrzeby ponownego ładowania
• Automatyzacja przez PowerShell / Rest API
• Koncepcja DWU
Sposób użycia i koszty
15
16. • Syntetyczna miara mocy obliczeniowej
• 100 – 6000 DWU (wersja próbna 200 DWU)
• 100 DWU = 1,17 EUR/h
Data Warehouse Unit (DWU)
16
100 DWU = 297 sec
400 DWU = 74 sec
800 DWU = 37 sec
1,600 DWU = 19 sec
Scan 1B Rows
Scan Rate xx M row/sec
Loading Rate xx K row/sec
Table Copy Rate xx K row/sec
100 DWU
18. • Wszystkie tabele są rozproszone
• 60 kubełków / dystrybucji
• Sposoby dystrybucji:
• Hash – duże tabele faktów
• Round Robin – słowniki wymiarów lub tabele bez dobrego kandydata na hashowanie
• Każdy węzeł obliczeniowy (Compute Node) zawiera jedną lub więcej dystrybucji
Dystrybucja danych
18
19. • SSIS (ADO.NET)
• Azure Data Factory
• BCP
• PolyBase
Ładowanie danych
19
Ładowanie via Contol Node – wąskie gardło
• Ładowanie bezpośrednio na Compute Node
• Pliki płaskie (np. CSV)
20. • Ładowanie plików Hadoop lub Azure Blob Storage
• Pull, nie Push – pomijanie Control Node, skalowalna wydajność
• Formaty: RC, ORC, Parquet, CSV/Flat
Idealny scenariusz:
PolyBase
20
Eksport
źródłowych
danych do CSV
Załadowanie
plików na Azure
Blob Storage
Załadowanie do
DWH poprzez
PolyBase
22. • Niektóre elementy T-SQL nie są wspierane
• Wybór właściwego sposobu dystrybucji (Hash vs Round Robin)
• Data Warehouse Migration Utility
• Red Gate Data Platform Studio
Migracja do Azure SQL DWH
22
24. • Ad-hoc
• SQL Server Management Studio
• Analysis Services Tabular
• SQL Server 2016 Enterprise – IaaS / VM
• Azure Analysis Services Preview
• Power BI
• Dedykowany konektor
• Wersja Pro (darmowa 60-dniowa wersja próbna)
Raportowanie i analityka
24
26. Rola i miejsce Azure SQL DWH
26
https://azure.microsoft.com/en-us/services/sql-data-warehouse/
27. Scenariusz biznesowy
27
• Uzupełnienie klasycznego DWH/BI o Big Data
• Clickstream – aktywność użytkowników na portalu
• Rozmiar danych zbyt duży dla Analysis Services (G5 VM – 448 GB RAM)
• Analitycy znający SQL / Hive
• Zapytania ad-hoc + eksport do SQL Server IaaS / VM
28. • Próbna subskrypcja Azure
• https://azure.microsoft.com/pl-pl/free/
• Rozszerzona wersja próbna Azure SQL DWH (do końca 2016)
• https://azure.microsoft.com/en-us/services/sql-data-warehouse/extended-trial/
• SQL Server Management Studio
• https://msdn.microsoft.com/en-us/library/mt238290.aspx
• Data Warehouse Migration Utility
• https://migrhoststorage.blob.core.windows.net/sqldwsample/DataWarehouseMigrationUtility.zip
• Próbna wersja Power BI Pro
• https://powerbi.microsoft.com/en-us/get-started/
Jak zacząć
28