Amazon Redshift

1.452 Aufrufe

Veröffentlicht am

DIe Aufzeichnung dieses Webinars steht hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/

Amazon Redshift ist ein schneller und mächtiger, voll verwalteter Data Warehouse Dienst in der Cloud. Redshift skaliert von Terabytes bis über ein Petabyte bei sehr günstigen Kosten. In diesem Webinar geben wir einen Überblick über den Dienst, zeigen das Aufsetzen eines Redshift-Clusters, die Verwaltung, den Datenimport und die Abfrage des Data Warehouse über SQL und über Partnerwerkzeuge.

Veröffentlicht in: Technologie
0 Kommentare
3 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.452
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
9
Aktionen
Geteilt
0
Downloads
23
Kommentare
0
Gefällt mir
3
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Amazon Redshift

  1. 1. Amazon Redshift Data Warehouse als Cloud Service Steffen Krause Technology Evangelist @AWS_Aktuell skrause@amazon.de
  2. 2. Teilen Sie mir mit: Was gut ist, was nicht Was Sie bei unseren Veranstaltungen sehen wollen Was Sie sich von AWS wünschen skrause@amazon.de Ihr Feedback ist wichtig
  3. 3. Amazon DynamoDB Schneller, vorhersagbarer, hoch skalierparer NoSQL Data Store Amazon RDS Verwalteter relationaler Datenbankdienst für MySQL, Oracle und SQL Server Amazon ElastiCache In-Memory Caching Service Amazon Redshift Schneller, mächtiger, voll verwalteter, Petabyte skalierbarer Data Warehouse Dienst Compute Storage AWS Global Infrastructure Database Application Services Deployment & Administration Networking AWS Datenbankdienste Skalierbare, hochperformante Datenbanken in der Cloud
  4. 4. Amazon DynamoDB Schneller, vorhersagbarer, hoch skalierparer NoSQL Data Store Amazon RDS Verwalteter relationaler Datenbankdienst für MySQL, Oracle und SQL Server Amazon ElastiCache In-Memory Caching Service Amazon Redshift Schneller, mächtiger, voll verwalteter, Petabyte skalierbarer Data Warehouse Dienst Compute Storage AWS Global Infrastructure Database Application Services Deployment & Administration Networking AWS Datenbankdienste Skalierbare, hochperformante Datenbanken in der Cloud
  5. 5. Data Warehousing auf die AWS Art • Keine Investitionskosten, Bezahlung nach Nutzung • Sehr hohe Performance bei sehr niedrigem Preis • Offen und flexibel, von populären Tools unterstützt • Leicht zu nutzen, massiv skalierbar
  6. 6. Was wir gebaut haben… Ein schnelles, mächtiges Data Warehouse, das bis in die Petabytes skaliert Viel schneller Viel billiger Viel einfacher Als verwalteter Dienst Amazon Redshift
  7. 7. Dramatische I/O Reduktion ID Alter Ort 123 20 Berlin 345 25 Leipzig 678 40 Dresden Zeilen-Speicherung Spalten-Speicherung Scan- Richtung
  8. 8. Amazon Redshift Architektur • Leader Node – SQL Endpoint – Speichert Metadaten – Koordiniert Abfrageausführung • Compute Nodes – Lokale spaltenbasierte Speicherung – Parallele Abfrageausführung – Load, Backup, Restore via Amazon S3 – Paralleles Laden aus Amazon DynamoDB • Einzel-Node-Version verfügbar 10 GigE (HPC) Laden Backup Restore JDBC/ODBC jdbc:postgresql://mycluster.c7lp0qs37f41.us-east-1.redshift.amazonaws.com:8192/mydb
  9. 9. Optimierte Hardware HS1.8XL: 128 GB RAM, 16 Cores, 24 HDDs, 16 TB nutzbarer Platz, 2 GB/sec Scanrate HS1.XL: 16 GB RAM, 2 Cores, 3 HDDs, 2 TB nutzbarer Platz • Optimiert für I/O intensive Workloads • Hohe Festplattendichte • Läuft in HPC Netzwerk - schnell • HS1.8XL verfügbar auf Amazon EC2
  10. 10. Klein anfangen, groß wachsen Extra Large Node (HS1.XL) 3 HDDs, 2 TB, 16 GB RAM, 2 Cores Single Node (2 TB) Cluster 2-32 Nodes (4 TB – 64 TB) Eight Extra Large Node (HS1.8XL) 24 HDDs, 16 TB, 128 GB RAM, 16 Cores, 10 GigE Cluster 2-100 Nodes (32 TB – 1.6 PB) Hinweis: Knoten nicht in selber Skala
  11. 11. Parallelisierung Redshift parallelisiert und verteilt alles • Abfrage • Laden • Backup • Restore • Größenänderung 10 GigE (HPC) Laden Backup Restore JDBC/ODBC
  12. 12. Günstige Preise Pro Stunde für HS1.XL Single Node Effektiver Stundenpreis pro TB Effektiver Jahrespreis pro TB On-Demand $ 0,850 $ 0,425 $ 3.723 1 Year reserviert $ 0,500 $ 0,250 $ 2.190 3 Year reserviert $ 0,228 $ 0,114 $ 999 Einfache Preise Anzahl Nodes x Kosten pro Stunde Keine Kosten für Leader Node Keine Investitionskosten Pay as you go
  13. 13. Demo: Cluster erstellen
  14. 14. Amazon Redshift verwendet SQL • Industriestandard SQL • ODBC und JDBC Treiber für Datenzugriff – verwendet Postgres 8.x Treiber – Die meisten PostgreSQL Features werden unterstützt – Siehe Dokumentation für Unterschiede • INSERT/UPDATE/DELETE werden unterstützt – Aber Daten laden aus S3 oder DynamoDB mit COPY-Befehl ist deutlich schneller – VACUUM-Befehl nach vielen DELETE oder UPDATE-Operationen empfohlen
  15. 15. • Sort Key – Mehrere Spalten möglich – Definiert die Reihenfolge der Daten auf Platte – Ermöglicht das Überspringen von Blöcken bei Abfrage • wenn Sort Key in WHERE-Klausel – Wenn neue Daten häufig abgefragt werden: timestamp-Spalte als Sort Key • Distribution Key – Eine Spalte – Definiert Verteilung der Daten im Cluster – Sollte für gleichmäßige Verteilung der Daten sorgen • hohe, über die Zeit gleichmäßige Kardinalität – Sollte in Abfragen nicht als „ist gleich“ Filter vorkommen – Join-Key für häufige Joins ist guter Kandidat – Wird keiner angegeben werden die Daten gleichmäßig per Row ID verteilt Tabellendesign
  16. 16. Daten laden aus S3 oder DynamoDB • Direktes Laden aus S3 oder DynamoDB unterstützt: copy customer from 's3://mybucket/customer.txt’ credentials 'aws_access_key_id=<your-access-key-id>; aws_secret_access_key=<your-secret-access-key>’ gzip delimiter '|’; • Paralleles Laden von Daten – Für paralleles Laden Daten in mehrere Dateien aufteilen – Dateinamen mit gemeinsamem Präfix: • customer.txt.1, customer.txt.2, … – Große Dateien mit gzip komprimieren • Nach Möglichkeit Daten in Sortierung des Sort Key laden
  17. 17. Daten-Komprimierung • Komprimierung spart Platz und Disk I/O • COPY analysiert die Daten automatisch und wählt geeignete Komprimierung – Ausschnitt der Daten für Auswahl der Komprimierung verwendet – Unterstützt: byte dictionary, delta, mostly n, run length, text • Kundenerfahrungen: 4-8-fache Komprimierung mit Echtdaten – 20x und mehr bei geeigneten Daten möglich • ANALYZE COMPRESSION zur Anzeige des gewählten Algorithmus analyze compression listing; Table | Column | Encoding ---------+----------------+--------- - listing | listid | delta listing | sellerid | delta32k listing | eventid | delta32k listing | dateid | bytedict listing | numtickets | bytedict listing | priceperticket | delta32k listing | totalprice | mostly32 listing | listtime | raw
  18. 18. Einfach zu benutzen • Provisionierung in Minuten • Abfrageperformance überwachen • Vergrößern und Verkleinern durch Klick • Eingebaute Sicherheit • Automatische Backups
  19. 19. Größenänderung durch Klick
  20. 20. Cluster bleibt online (read only) • Neuer Zielcluster im Hintergrund erstellt • Bezahlung nur für Quellcluster
  21. 21. Cluster bleibt online • Der Cluster bleibt bei Größenänderungen online • Komplett automatisch – Daten automatisch neu verteilt • Read Only Modus während Größenänderung • Paralleles Kopieren der Daten (Node to Node) • Automatische Endpoint-Wechsel per DNS • Nur ein Cluster wird bezahlt
  22. 22. Demo: Verwaltung
  23. 23. Eingebaute Sicherheit • SSL Verschlüsselung für Daten auf der Leitung • Optional Verschlüsselung für Daten auf Festplatte – AES-256, Hardware-beschleunigt – Alle Blöcke auf Platte und in Amazon S3 verschlüsselt • Kein direkter Zugriff auf Compute Nodes • Amazon VPC unterstützt 10 GigE (HPC) Laden Backup Restore Kunden-VPC Interner VPC JDBC/ODBC
  24. 24. Datensicherung und Verfügbarkeit • Replikation innerhalb des Clusters und Backup nach S3 stellt mehrere Kopien der Daten zu jedem Zeitpunkt sicher • Backups nach Amazon S3 sind kontinuierlich, automatisch und inkrementell – Entworfen für 11 Neunen Dauerhaftigkeit • Kontinuierliche Überwachung und automatische Wiederherstellung im Fall von Festplatten- und Node-Fehlern • Wiederherstellung von Snapshots in beliebige Availability Zones innerhalb einer Region
  25. 25. Datenquellen Amazon DynamoDB Amazon Elastic MapReduce Amazon Simple Storage Service (S3) Amazon Elastic Compute Cloud (EC2) AWS Storage Gateway Service Corporate Data Center Amazon Relational Database Service (RDS) Amazon Redshift Mehr bald… Integration mit verschiedenen Datenquellen
  26. 26. Daten laden und entladen • Upload nach Amazon S3 • AWS Import/Export • AWS Direct Connect • Partner Data Integration Systems Integrators Mehr bald…
  27. 27. Analysewerkzeuge JDBC/ODBC Amazon Redshift Mehr bald…
  28. 28. Demo: Client Tools
  29. 29. Kundenbeispiel Everyone Needs Skilled People At Home At Work In Life Repeatedly SkillPages
  30. 30. Data Architecture Data Analyst Raw Data Get Data Join via Facebook Add a Skill Page Invite Friends Web Servers Amazon S3 User Action Trace Events EMR Hive Scripts Process Content • Process log files with regular expressions to parse out the info we need. • Processes cookies into useful searchable data such as Session, UserId, API Security token. • Filters surplus info like internal varnish logging. Amazon S3 Aggregated Data Raw Events Internal Web Excel Tableau Amazon Redshift
  31. 31. Amazon Redshift ist • Ein voll verwalteter Data Warehouse Service • Schnell • Kostengünstig • Flexibel • Abrechnung nach Nutzung • Kompatibel mit bestehenden ETL und BI Tools Zusammenfassung
  32. 32. Ressourcen • Steffen Krause | skrause@amazon.de | @AWS_Aktuell • http://aws.amazon.com/de/redshift • Getting Started Guide: http://docs.aws.amazon.com/redshift/latest/gsg/welcome.html • Setting Up SQL Workbench/J: http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html • SQL Reference: http://docs.aws.amazon.com/redshift/latest/dg/cm_chap_SQLCommandRef.html • Client Tools: • https://aws.amazon.com/marketplace/redshift/ • https://www.jaspersoft.com/webinar-AWS-Agile-Reporting-and-Analytics-in-the-Cloud
  33. 33. • http://aws.amazon.com/de • Getting started with Free Tier: http://aws.amazon.com/de/free/ • 25 US$ credits für neue Kunden: http://aws.amazon.com/de/campaigns/account/ • Twitter: @AWS_Aktuell • Facebook: http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/ • Slides: http://de.slideshare.net/AWSAktuell Ressourcen
  34. 34. 1. Was ist Amazon Web Services und wofür kann ich AWS nutzen 2. Erste Schritte mit Amazon Web Services – von der Anmeldung bis zur ersten Instanz 3. Amazon Web Services 1*1 – welche Dienste gibt es wofür? 4. Server in der Cloud – die AWS Compute-Dienste 5. Daten speichern in der Cloud – die AWS Storage-Dienste 6. Datenbanken in der Cloud – SQL und NoSQL 7. Amazon Web Services für eCommerce Aufzeichnungen http://aws.amazon.com/de/recorded-webinar/ Bisherige Webinare
  35. 35. • Big Data – 15.07.2013, 16 Uhr • Wie kann man ein Unternehmens-Rechenzentrum um Cloud-Ressourcen erweitern? Netzwerke, Sicherheit, Ressource – 23.07.2013, 16 Uhr • Die erste Woche mit AWS – 07.08.2013, 16 Uhr • 8 Tipps für eine Cloud-Strategie – wie Unternehmen heute die Cloud einsetzen – 14.08.2013, 16 Uhr • Optimieren Sie Ihre AWS Nutzung um Kosten zu sparen – 21.08.2013, 16 Uhr • http://aws.amazon.com/de/about-aws/events/ Kommende Webinare

×