re:Growth2019 Analytics Updates

re:Invent2019 Analytics Updates
〜 Amazon Redshiftの再設計 RA3×AQUA 〜
データアナリティクス事業本部
⽯川覚

⽒名
- ⽯川覚 (いしかわさとる)
所属
- データアナリティクス事業本部 (DA事業本部)
- インテグレーション部 (インテグ部) 開発チーム
- 札幌オフィス勤務
略歴
- メーカー系SIer、ITベンチャー企業、現在に⾄る
担当業務
- データ分析基盤のコンサルティング、設計、開発
好きなAWSサービス
- AWSサポート、Redshift、Athena、Glue、LakeFormation
2⾃⼰紹介

3アジェンダ
• 今年のre:Invent2019
• Analytic Updates - Amazon Athena
• Analytic Updates - Amazon Redshift
• Amazon Redshift の再設計 - RA3 × AQUA
• re:Invent2019の振り返り

5原点回帰
新サービスの発表の場、、、というより
AWSのイノベーションの歴史と振り返りの場
• その結果、従来だったらキーノートで発表されるようなサー
ビス、新機能が事前に発表される
• いわゆる「予選落ちサービス」が続出
• Amazon Athenaの関してはほとんど「予選落ちサービス」
• Analytic 関連で⼤きなアップデート
• Amazon Athena
• Amazon Redshift

Analytics Updates - Amazon Athena

7Federated Query （Preview）
構造化、⾮構造化のオブジェクトもしくはデータに対して、
オンプレミス、クラウドデータソース問わずクエリを実⾏
• Federated Queryの構造
• Athenaからリクエストは、データソースケースコネクタベース
のAWSLambdaからフェデレーテッドデータソースにアクセス

8Machine Leaning / SageMaker 連携機能（Preview）
SQLを使える⼈は、MLやPythonやJavaを使える⼈より、
SQLクエリで推論できることは利点である
• SageMaker でMLモデルをデプロイする
• 前処理、後処理のためのUDFを書く
• 組織の誰もが任意のデータソースからデータの推論を実⾏で
きる

9その他のアップデート
• ユーザー定義関数（UDFs）（Preview）
• AWS LambdaによるUDF
• - ネットワーク呼び出しをサポートする
• - SELECTやFILTERでUDFを実⾏する
• Hive メタストアのサポート（Preview）
• Glueカタログではなく、カスタムメタストアをAthenaで使える
• Hiveメタストア提供のリファレンス実装
• Hiveメタストア、Glueカタログ、他のフェデレーテッドデータ
ソースによってデータをスキャンしてクエリを実⾏する

Analytics Updates - Amazon Redshift

18ヶ⽉間で200以上の新機能を提供

12Federated Query（Preview）
• スキーマ毎に外部スキーマとして設定
• Redshiftから直接PostgreSQLのテーブルに
接続してETL/ELTを処理するクエリを実⾏
• Redshiftは、⾼度な最適化機能を活⽤して、
計算の多くをPostgreSQLに直接プッシュダ
ウンして垂直分散し、ネットワーク上を移動
するデータ量を最⼩限に抑える
RDSとAurora PostgreSQLのテーブルに
Redshiftから直接アクセスできる

13Data Lake Export
• カラムナフォーマットParquetはデータを列単位で保存するため、
⼤規模なデータを処理する際に、計算に必要なカラムだけ取り出し
て処理をしたり、効率的に圧縮できる
• Redshift-データレイク間のデータの共有・連携が容易になる
Redshiftのテーブルデータをカラムナファイルフォーマット
Parquet形式でエクスポートする機能

14Materialized View（Preview）
事前に計算されたクエリの結果を保存し、それらを効率的に
維持することで、予測可能で繰り返し起きる分析ワークロー
ドのクエリパフォーマンスを⼤幅に⾼速化する
• データの更新
• 更新したいタイミングで REFRESH
MATERIALIZED VIEW コマンドを実⾏する
• 増分リフレッシュ試み、インクリメンタルに更新
できない場合はフルリフレッシュよって更新する

15Auto Vacuum & Auto Sort
機械学習を使⽤してクエリのパターンを
分析した結果に基づき、Vacuum Sort を⾃動実⾏する機能
• Vacuumは、概ねAuto Vacuum Sort /
Deleteに任せて良い
• 未ソートリージョンでもデータブロック
がソート済みの場合はソートが不要
• 現在は、Vaccum、Analyze、WLM、分
散キーやソートキーの選定も⾃動化

Amazon Redshift の再設計 - RA3 × AQUA

18RA3: 第3世代 Amazon Redshift コンピュートノード
• インフラとストレージ管理の刷新
• Nitroシステムと広帯域ネットワー
クを採⽤
• S3とノード内のストレージ
（NVMe-SSD）の階層ストレージ
• 通常とピーク時に必要とされるス
ケールするデータウェアハウス
• ストレージとコンピューティングの
課⾦の分離
• ⾃動化、ワークフローの変更不要、
ストレージの管理も不要

19RA3: 低価格で⾼パフォーマンス
• RA3.16xlarge ノード
• ds2.8xlargeと⽐較して、２倍のパ
フォーマンス、２倍のストレージ、
利⽤費は同じ
• 他社のクラウドデータウェアハウ
スに⽐べて、価格性能⽐が３倍
• 1ノードあたり、64TBのデータを
管理できる
• クラスタは２ノード以上

20RA3: 移⾏プランの例
• DS2からの移⾏、同じコスト、より良いパフォーマンス
• 同価格、ds2.8xlarge（14ノード）からra3.16xl（7ノード）の
場合、クエリは2.1倍⾼速
• DS2からの移⾏、同じコスト、ETL⽤途のワークロード
場合、ETLワークロードは1.3倍⾼速
• DC2からの移⾏、同じコスト、最も良いパフォーマンス
場合、クエリは1.25倍⾼速

21RA3: 移⾏⽅法
• スナップショットによる移⾏
• 数分で新しいRA3クラスタを作る
• 新しいRA3クラスタの検証後、古いクラスタの削除
• 新しいRA3クラスタの名前を変更する
• Elastic Resizeの柔軟性は減ります
• Classic Resizeによる移⾏
• Classic Resizeは古いクラスタから新しいクラスタのデータをコ
ピーして、完了時にクラスタの名前を変更する（Classic Resize
は、リストアより時間を要する）
• Elastic Resizeの完全な柔軟性は保持する

22RA3:ノードの⽐較
• ノードタイプ
※ RA3の4xlargeは coming soon︕

24AQUA: Advanced Query Accelerator
• 新しく分散型でハードウェアアクセ
ラレートされた処理レイヤ
• 追加費⽤無し
• コードの変更は不要
Redshiftが他のクラウドデータウェアハウスよりも
最⼤10倍⾼速で実⾏できるようにする、
新しい分散型ハードウェアアクセラレーションキャッシュ

25AQUA: アーキテクチャ
• 圧縮と暗号化をNitroアクセラ
レータで処理する
• 主要な分析オペレーション⽤途
のカスタムプロセッサ
• スキャン(フィルタ)
• 集計
• ハッシング
• ノード内コンパイラはハード
ウェアアクセラレタやCPUに
よって操作を代⾏します

26AQUA: アーキテクチャ
• 仕組は複数ノードで⼤量のデータ
を並⾏して処理
• データ量の増加に合わせて⾃動的
にスケールアウト
• S3上の⼤量のキャッシュアーキ
テクチャを設けてこの構成を実現

27AQUA: プッシュダウン及びスケールアウト処理レイヤ
• AQUAノードにプッシュダウン
操作をすることによって、ネッ
トワーク上のデータ移動を最⼩
限に抑える
• AQUAを通してスキャンと集計
操作をスケールアウトする

28RA3とAQUAの利⽤
第３世代コンピュートノード「RA3」はすでにGAです︕
「AQUA」はRA3との組み合わせでプレビュー可能です︕
（AQUAは、プライベートプレビューの申請が必要）

Analytics Updatesの振り返り

30Analytics Updatesの振り返り
• Amazon Athena
• Federated QueryやML連携など素晴らしい機能がリリース
• Amazon Redsift
• 第３世代ノードタイプ「RA3」のリリース
• AQUAのプライベートプレビュー開始
• AQUAは、第３世代ノードタイプ「RA3」のみ対応
• その他
• AWS GlueやLake Formationは今後に期待

re:Growth2019 Analytics Updates

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie re:Growth2019 Analytics Updates

Ähnlich wie re:Growth2019 Analytics Updates (20)

Mehr von Satoru Ishikawa

Mehr von Satoru Ishikawa (9)

re:Growth2019 Analytics Updates