2. Łukasz Grala
lukasz@tidk.pl
▷ Architekt rozwiązań Platformy Danych & Business Intelligence & Zaawansowanej Analityki w TIDK
▷ Certyfikowany trener Microsoft i wykładowca na wyższych uczelniach
▷ Autor zaawansowanych szkoleń i warsztatów, oraz licznych publikacji i webcastów
▷ Od 2010 roku wyróżniany nagrodą Microsoft Data Platform MVP
▷ Doktorant Politechnika Poznańska – Wydział Informatyki (obszar bazy danych, eksploracja danych, uczenie maszynowe)
▷ Prelegent na licznych konferencjach w kraju i na świecie
▷ Posiada liczne certyfikaty (MCT, MCSE, MCSA, MCITP,…)
▷ Członek Polskiego Towarzystwa Informatycznego
▷ Członek i lider Polish SQL Server User Group (PLSSUG)
▷ Pasjonat analizy, przechowywania i przetwarzania danych, miłośnik Jazzu
3. Agenda
Azure Data Lake Store
Azure Data Lake Analytics
Azure Data Lake Projects
Summary
6. Data Lake Store
A hyper scale repository for big data analytics workloads
• No limits to SCALE
• Store ANY DATA in its native format (csv, tcv, json tables, images,…)
• HADOOP FILE SYSTEM (HDFS) for the cloud
• ENTERPRISE READY access control, encryption at rest
• Optimized for analytic workload PERFORMANCE
8. Data Lake Storage
HDFS for the cloud
New filesystem build from the ground up, based on HADOOP
file system
Integrates with HDInsight, Hortonworks and Cloudera
Performance-tuned for big data analytics
Supports Files and Folder objects and operations
Unlimited storage (Files size can be from GB to PB)
9. Data Lake Storage - Security
Integrates with Azure Active Directory
Audit logs for all operations
Server side Encryption
ACL on files and folders
Enterprise ready security when in GA
10. Data Lake Storage – Filesystem
WebHDFS API, REST
Use: adl://
adl://<data_lake_store_name>.azuredatalakestore.net
12. Azure Data Lake Analytics
Overview Data Processing and U-SQL
13. Azure Data Lake Analytics
A elastic analytics service built on Apache YARN that processes
all data, at any size
• No limits to SCALE
• Includes U-SQL, a language that unifies the benefits of SQL with the expressive power of C#
• Optimized to work with ADL STORE
• FEDERATED QUERY across Azure data sources
• ENTERPRISE READY Role based access control & Auditing
• Pay PER JOB & Scale PER JOB
14. U-SQL
A new language for Big Data
• Familiar syntax to millions of SQL & .NET developers
• Unifies declarative nature of SQL with the imperative power of C#
• Unifies structured, semi-structured and unstructured data
• Distributed query support over all data
15. U-SQL – Language Overview
U-SQL Fundamentals
• All the familiar SQL clauses
SELECT | FROM | WHERE
GROUP BY | JOIN | OVER
• Operate on unstructured and
structured data
• Relational metadata objects
.NET integration and
extensibility
• U-SQL expressions are full C#
expressions
• Reuse .NET code in your own
assemblies
• Use C# to define your own:
Types | Functions | Joins | Aggregators | I/O
(Extractors, Outputters)
17. U-SQL Distributed Query
Azure Storage Blobs
Azure Data Lake Store
Azure SQL Database
Azure SQL Data Warehouse
Azure SQL DB in Azure VM
READ
READ
READ
READ
READ
WRITE
WRITE
WRITE
WRITE
WRITE
18. Sample
@orders =
EXTRACT
OrderId int,
Customer string,
Date DateTime,
Amount float
FROM "/input/orders.txt"
USING Extractors.Tsv();
OUTPUT @orders
TO "/output/orders_copy.txt"
USING Outputters.Tsv();
Apply Schema on read
From a file in a Data Lake
Easy delimited text handling
Write out
Rowset
35. Thanks!
Any questions?
You can find me at:
@PowerPivotBlog
../in/LukaszGrala
slideshare.net/LukaszGrala
www.tidk.pl
lukasz@tidk.pl Presentation template by SlidesCarnival
36. ▷ 16-18 maj 2016
▷ Wrocław Centrum Konferencyjne
▷ 3 dni, 6 warsztatów, 4 ścieżki, ponad 30 prelegentów, 50 sesji
▷ 600 uczestników + sponsorzy + prelegenci + organizatorzy
▷ Goście między innymi z USA, Anglii, Niemiec, Ukrainy, Bułgarii,
Słoweni
▷ Premiera techniczna SQL Server 2016
sqlday.pl @sqlday
W tym warsztat Big Data Analytics – Łukasz Grala & Marcin Szeliga
37. Masterclass: Cloud Storage
23-25.05.2016, Warszawa
Azure SQL Server i Azure SQL Database, Skalowanie bazy relacyjnej w
chmurze, Hurtownia danych w chmurze PowerShell i bazy danych w
Azure, Azure BLOB Storage, Bazy dokumentowe, Big Data z
HDInsight, Hadoop, Apache Spark, Pozostałe komponenty HDInsight i
Hadoop, Wirtualne maszyny
Masterclass: Cloud Analytics
20-22.06.2016, Warszawa
Data Catalog, Data Factory, Data Lake, PowerBI i dane relacyjne w
chmurze, Hadoop, Apache Spark, Analiza danych strumieniowych,
Analiza z baz danych dokumentowych i grafowych, Uczenie
maszynowe, Polybase w SQL Server 2016
Łukasz Grala
Data Platform MVP,
MCT, MCSE, MCSA,
MCITP, MCSA,
MCP, MTA
Łukasz o szkoleniach:
„Danych produkowanych jest
więcej niż kiedykolwiek, pochodzą
z sieci Internet, z portali społecznościowych, z
urządzeń. Bardzo duży rozwój Internetu Rzeczy
(IoT) ilość tych danych jeszcze bardziej
zwiększa. Dlatego przygotowaliśmy dwa
specjalne kursy Cloud Storage i Cloud Analytics,
przedstawiające mechanizmy składowania,
przetwarzania i analizy danych z
wykorzystaniem chmury.”
Big Data, BI, Analityka, SQL
Standard -25% na hasło AzureBootcampwww.hexcode.pl