Weitere ähnliche Inhalte Ähnlich wie re:Growth2019 Analytics Updates (20) Mehr von Satoru Ishikawa (9) re:Growth2019 Analytics Updates2. ⽒名
- ⽯川 覚 (いしかわ さとる)
所属
- データアナリティクス事業本部 (DA事業本部)
- インテグレーション部 (インテグ部) 開発チーム
- 札幌オフィス勤務
略歴
- メーカー系SIer、ITベンチャー企業、現在に⾄る
担当業務
- データ分析基盤のコンサルティング、設計、開発
好きなAWSサービス
- AWSサポート、Redshift、Athena、Glue、LakeFormation
2⾃⼰紹介
8. 8Machine Leaning / SageMaker 連携機能(Preview)
SQLを使える⼈は、MLやPythonやJavaを使える⼈より、
SQLクエリで推論できることは利点である
• SageMaker でMLモデルをデプロイする
• 前処理、後処理のためのUDFを書く
• 組織の誰もが任意のデータソースからデータの推論を実⾏で
きる
9. 9その他のアップデート
• ユーザー定義関数(UDFs)(Preview)
• AWS LambdaによるUDF
• - ネットワーク呼び出しをサポートする
• - SELECTやFILTERでUDFを実⾏する
• Hive メタストアのサポート(Preview)
• Glueカタログではなく、カスタムメタストアをAthenaで使える
• Hiveメタストア提供のリファレンス実装
• Hiveメタストア、Glueカタログ、他のフェデレーテッドデータ
ソースによってデータをスキャンしてクエリを実⾏する
12. 12Federated Query(Preview)
• スキーマ毎に外部スキーマとして設定
• Redshiftから直接PostgreSQLのテーブルに
接続してETL/ELTを処理するクエリを実⾏
• Redshiftは、⾼度な最適化機能を活⽤して、
計算の多くをPostgreSQLに直接プッシュダ
ウンして垂直分散し、ネットワーク上を移動
するデータ量を最⼩限に抑える
RDSとAurora PostgreSQLのテーブルに
Redshiftから直接アクセスできる
13. 13Data Lake Export
• カラムナフォーマットParquetは データを列単位で保存するため、
⼤規模なデータを処理する際に、 計算に必要なカラムだけ取り出し
て処理をしたり、効率的に圧縮できる
• Redshift-データレイク間のデータの共有・連携が容易になる
Redshiftのテーブルデータをカラムナファイルフォーマット
Parquet形式でエクスポートする機能
15. 15Auto Vacuum & Auto Sort
機械学習を使⽤してクエリのパターンを
分析した結果に基づき、Vacuum Sort を⾃動実⾏する機能
• Vacuumは、概ねAuto Vacuum Sort /
Deleteに任せて良い
• 未ソートリージョンでもデータブロック
がソート済みの場合はソートが不要
• 現在は、Vaccum、Analyze、WLM、分
散キーやソートキーの選定も⾃動化
18. 18RA3: 第3世代 Amazon Redshift コンピュートノード
• インフラとストレージ管理の刷新
• Nitroシステムと広帯域ネットワー
クを採⽤
• S3とノード内のストレージ
(NVMe-SSD)の階層ストレージ
• 通常とピーク時に必要とされるス
ケールするデータウェアハウス
• ストレージとコンピューティングの
課⾦の分離
• ⾃動化、ワークフローの変更不要、
ストレージの管理も不要
20. 20RA3: 移⾏プランの例
• DS2からの移⾏、同じコスト、より良いパフォーマンス
• 同価格、ds2.8xlarge(14ノード)からra3.16xl(7ノード)の
場合、クエリは2.1倍⾼速
• DS2からの移⾏、同じコスト、ETL⽤途のワークロード
• 同価格、ds2.8xlarge(16ノード)からra3.16xl(8ノード)の
場合、ETLワークロードは1.3倍⾼速
• DC2からの移⾏、同じコスト、最も良いパフォーマンス
• 同価格、ds2.8xlarge(15ノード)からra3.16xl(5ノード)の
場合、クエリは1.25倍⾼速
21. 21RA3: 移⾏⽅法
• スナップショットによる移⾏
• 数分で新しいRA3クラスタを作る
• 新しいRA3クラスタの検証後、古いクラスタの削除
• 新しいRA3クラスタの名前を変更する
• Elastic Resizeの柔軟性は減ります
• Classic Resizeによる移⾏
• Classic Resizeは古いクラスタから新しいクラスタのデータをコ
ピーして、完了時にクラスタの名前を変更する(Classic Resize
は、リストアより時間を要する)
• Elastic Resizeの完全な柔軟性は保持する
24. 24AQUA: Advanced Query Accelerator
• 新しく分散型でハードウェアアクセ
ラレートされた処理レイヤ
• 追加費⽤無し
• コードの変更は不要
Redshiftが他のクラウドデータウェアハウスよりも
最⼤10倍⾼速で実⾏できるようにする、
新しい分散型ハードウェアアクセラレーションキャッシュ
30. 30Analytics Updatesの振り返り
• Amazon Athena
• Federated QueryやML連携など素晴らしい機能がリリース
• Amazon Redsift
• 第3世代ノードタイプ「RA3」のリリース
• AQUAのプライベートプレビュー開始
• AQUAは、第3世代ノードタイプ「RA3」のみ対応
• その他
• AWS GlueやLake Formationは今後に期待