SlideShare ist ein Scribd-Unternehmen logo
1 von 31
Downloaden Sie, um offline zu lesen
re:Invent2019 Analytics Updates
〜 Amazon Redshiftの再設計 RA3×AQUA 〜
データアナリティクス事業本部
⽯川 覚
⽒名
- ⽯川 覚 (いしかわ さとる)
所属
- データアナリティクス事業本部 (DA事業本部)
- インテグレーション部 (インテグ部) 開発チーム
- 札幌オフィス勤務
略歴
- メーカー系SIer、ITベンチャー企業、現在に⾄る
担当業務
- データ分析基盤のコンサルティング、設計、開発
好きなAWSサービス
- AWSサポート、Redshift、Athena、Glue、LakeFormation
2⾃⼰紹介
3アジェンダ
• 今年のre:Invent2019
• Analytic Updates - Amazon Athena
• Analytic Updates - Amazon Redshift
• Amazon Redshift の再設計 - RA3 × AQUA
• re:Invent2019の振り返り
今年のre:Invent2019
5原点回帰
新サービスの発表の場、、、というより
AWSのイノベーションの歴史と振り返りの場
• その結果、従来だったらキーノートで発表されるようなサー
ビス、新機能が事前に発表される
• いわゆる「予選落ちサービス」が続出
• Amazon Athenaの関してはほとんど「予選落ちサービス」
• Analytic 関連で⼤きなアップデート
• Amazon Athena
• Amazon Redshift
Analytics Updates - Amazon Athena
7Federated Query (Preview)
構造化、⾮構造化のオブジェクトもしくはデータに対して、
オンプレミス、クラウドデータソース問わずクエリを実⾏
• Federated Queryの構造
• Athenaからリクエストは、データソースケースコネクタベース
のAWSLambdaからフェデレーテッドデータソースにアクセス
8Machine Leaning / SageMaker 連携機能(Preview)
SQLを使える⼈は、MLやPythonやJavaを使える⼈より、
SQLクエリで推論できることは利点である
• SageMaker でMLモデルをデプロイする
• 前処理、後処理のためのUDFを書く
• 組織の誰もが任意のデータソースからデータの推論を実⾏で
きる
9その他のアップデート
• ユーザー定義関数(UDFs)(Preview)
• AWS LambdaによるUDF
• - ネットワーク呼び出しをサポートする
• - SELECTやFILTERでUDFを実⾏する
• Hive メタストアのサポート(Preview)
• Glueカタログではなく、カスタムメタストアをAthenaで使える
• Hiveメタストア提供のリファレンス実装
• Hiveメタストア、Glueカタログ、他のフェデレーテッドデータ
ソースによってデータをスキャンしてクエリを実⾏する
Analytics Updates - Amazon Redshift
18ヶ⽉間で200以上の新機能を提供
12Federated Query(Preview)
• スキーマ毎に外部スキーマとして設定
• Redshiftから直接PostgreSQLのテーブルに
接続してETL/ELTを処理するクエリを実⾏
• Redshiftは、⾼度な最適化機能を活⽤して、
計算の多くをPostgreSQLに直接プッシュダ
ウンして垂直分散し、ネットワーク上を移動
するデータ量を最⼩限に抑える
RDSとAurora PostgreSQLのテーブルに
Redshiftから直接アクセスできる
13Data Lake Export
• カラムナフォーマットParquetは データを列単位で保存するため、
⼤規模なデータを処理する際に、 計算に必要なカラムだけ取り出し
て処理をしたり、効率的に圧縮できる
• Redshift-データレイク間のデータの共有・連携が容易になる
Redshiftのテーブルデータをカラムナファイルフォーマット
Parquet形式でエクスポートする機能
14Materialized View(Preview)
事前に計算されたクエリの結果を保存し、それらを効率的に
維持することで、予測可能で繰り返し起きる分析ワークロー
ドのクエリパフォーマンスを⼤幅に⾼速化する
• データの更新
• 更新したいタイミングで REFRESH
MATERIALIZED VIEW コマンドを実⾏する
• 増分リフレッシュ試み、インクリメンタルに更新
できない場合はフルリフレッシュよって更新する
15Auto Vacuum & Auto Sort
機械学習を使⽤してクエリのパターンを
分析した結果に基づき、Vacuum Sort を⾃動実⾏する機能
• Vacuumは、概ねAuto Vacuum Sort /
Deleteに任せて良い
• 未ソートリージョンでもデータブロック
がソート済みの場合はソートが不要
• 現在は、Vaccum、Analyze、WLM、分
散キーやソートキーの選定も⾃動化
Amazon Redshift の再設計 - RA3 × AQUA
18RA3: 第3世代 Amazon Redshift コンピュートノード
• インフラとストレージ管理の刷新
• Nitroシステムと広帯域ネットワー
クを採⽤
• S3とノード内のストレージ
(NVMe-SSD)の階層ストレージ
• 通常とピーク時に必要とされるス
ケールするデータウェアハウス
• ストレージとコンピューティングの
課⾦の分離
• ⾃動化、ワークフローの変更不要、
ストレージの管理も不要
19RA3: 低価格で⾼パフォーマンス
• RA3.16xlarge ノード
• ds2.8xlargeと⽐較して、2倍のパ
フォーマンス、2倍のストレージ、
利⽤費は同じ
• 他社のクラウドデータウェアハウ
スに⽐べて、価格性能⽐が3倍
• 1ノードあたり、64TBのデータを
管理できる
• クラスタは2ノード以上
20RA3: 移⾏プランの例
• DS2からの移⾏、同じコスト、より良いパフォーマンス
• 同価格、ds2.8xlarge(14ノード)からra3.16xl(7ノード)の
場合、クエリは2.1倍⾼速
• DS2からの移⾏、同じコスト、ETL⽤途のワークロード
• 同価格、ds2.8xlarge(16ノード)からra3.16xl(8ノード)の
場合、ETLワークロードは1.3倍⾼速
• DC2からの移⾏、同じコスト、最も良いパフォーマンス
• 同価格、ds2.8xlarge(15ノード)からra3.16xl(5ノード)の
場合、クエリは1.25倍⾼速
21RA3: 移⾏⽅法
• スナップショットによる移⾏
• 数分で新しいRA3クラスタを作る
• 新しいRA3クラスタの検証後、古いクラスタの削除
• 新しいRA3クラスタの名前を変更する
• Elastic Resizeの柔軟性は減ります
• Classic Resizeによる移⾏
• Classic Resizeは古いクラスタから新しいクラスタのデータをコ
ピーして、完了時にクラスタの名前を変更する(Classic Resize
は、リストアより時間を要する)
• Elastic Resizeの完全な柔軟性は保持する
22RA3:ノードの⽐較
• ノードタイプ
※ RA3の4xlargeは coming soon︕
24AQUA: Advanced Query Accelerator
• 新しく分散型でハードウェアアクセ
ラレートされた処理レイヤ
• 追加費⽤無し
• コードの変更は不要
Redshiftが他のクラウドデータウェアハウスよりも
最⼤10倍⾼速で実⾏できるようにする、
新しい分散型ハードウェアアクセラレーションキャッシュ
25AQUA: アーキテクチャ
• 圧縮と暗号化をNitroアクセラ
レータで処理する
• 主要な分析オペレーション⽤途
のカスタムプロセッサ
• スキャン(フィルタ)
• 集計
• ハッシング
• ノード内コンパイラはハード
ウェアアクセラレタやCPUに
よって操作を代⾏します
26AQUA: アーキテクチャ
• 仕組は複数ノードで⼤量のデータ
を並⾏して処理
• データ量の増加に合わせて⾃動的
にスケールアウト
• S3上の⼤量のキャッシュアーキ
テクチャを設けてこの構成を実現
27AQUA: プッシュダウン及びスケールアウト処理レイヤ
• AQUAノードにプッシュダウン
操作をすることによって、ネッ
トワーク上のデータ移動を最⼩
限に抑える
• AQUAを通してスキャンと集計
操作をスケールアウトする
28RA3とAQUAの利⽤
第3世代コンピュートノード「RA3」はすでにGAです︕
「AQUA」はRA3との組み合わせでプレビュー可能です︕
(AQUAは、プライベートプレビューの申請が必要)
Analytics Updatesの振り返り
30Analytics Updatesの振り返り
• Amazon Athena
• Federated QueryやML連携など素晴らしい機能がリリース
• Amazon Redsift
• 第3世代ノードタイプ「RA3」のリリース
• AQUAのプライベートプレビュー開始
• AQUAは、第3世代ノードタイプ「RA3」のみ対応
• その他
• AWS GlueやLake Formationは今後に期待
31

Weitere ähnliche Inhalte

Was ist angesagt?

[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
Insight Technology, Inc.
 

Was ist angesagt? (20)

[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
 
Azure Synapse Link for Azure Cosmos DB
Azure Synapse Link for Azure Cosmos DBAzure Synapse Link for Azure Cosmos DB
Azure Synapse Link for Azure Cosmos DB
 
(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandra
 
Snowflake Architecture and Performance
Snowflake Architecture and PerformanceSnowflake Architecture and Performance
Snowflake Architecture and Performance
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Datalake最新情報セミナー
Datalake最新情報セミナーDatalake最新情報セミナー
Datalake最新情報セミナー
 
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
 
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
 
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and Tableau
 
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS GlueModernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
 
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ
 
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
 
Case Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and HadoopCase Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and Hadoop
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
 
Snowflake Architecture and Performance(db tech showcase Tokyo 2018)
Snowflake Architecture and Performance(db tech showcase Tokyo 2018)Snowflake Architecture and Performance(db tech showcase Tokyo 2018)
Snowflake Architecture and Performance(db tech showcase Tokyo 2018)
 
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
 
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
 
SQream by Rafi (japanese)
SQream by Rafi (japanese)SQream by Rafi (japanese)
SQream by Rafi (japanese)
 

Ähnlich wie re:Growth2019 Analytics Updates

AWSが誕生するまでの秘話
AWSが誕生するまでの秘話AWSが誕生するまでの秘話
AWSが誕生するまでの秘話
Yasuhiro Horiuchi
 

Ähnlich wie re:Growth2019 Analytics Updates (20)

データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
 
2015年12月 Amazon RDS for Aurora セミナー in 関西 「Aurora検証のご紹介」
2015年12月 Amazon RDS for Aurora セミナー in 関西 「Aurora検証のご紹介」2015年12月 Amazon RDS for Aurora セミナー in 関西 「Aurora検証のご紹介」
2015年12月 Amazon RDS for Aurora セミナー in 関西 「Aurora検証のご紹介」
 
SAP on AWS 実際の導入例と導入効果
SAP on AWS 実際の導入例と導入効果SAP on AWS 実際の導入例と導入効果
SAP on AWS 実際の導入例と導入効果
 
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクスAmazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
 
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
 
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
 
Microsoft Ignite November 2021 最新アップデート - Azure Synapse Analytics
Microsoft Ignite November 2021 最新アップデート - Azure Synapse AnalyticsMicrosoft Ignite November 2021 最新アップデート - Azure Synapse Analytics
Microsoft Ignite November 2021 最新アップデート - Azure Synapse Analytics
 
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
 
AWS_IoT_Appresso-event_20160721
AWS_IoT_Appresso-event_20160721AWS_IoT_Appresso-event_20160721
AWS_IoT_Appresso-event_20160721
 
InterBEE 2018 AWS & AWS Elemental Booth Review
InterBEE 2018 AWS & AWS Elemental Booth ReviewInterBEE 2018 AWS & AWS Elemental Booth Review
InterBEE 2018 AWS & AWS Elemental Booth Review
 
新規事業を 支える文化と加速させる技術 ~ devops / GCP / DDD ~
新規事業を支える文化と加速させる技術~ devops / GCP / DDD ~新規事業を支える文化と加速させる技術~ devops / GCP / DDD ~
新規事業を 支える文化と加速させる技術 ~ devops / GCP / DDD ~
 
Integral Technology 第2回ユーザカンファレンス 〜すべてをクラウドで解析するための方法〜
Integral Technology 第2回ユーザカンファレンス  〜すべてをクラウドで解析するための方法〜Integral Technology 第2回ユーザカンファレンス  〜すべてをクラウドで解析するための方法〜
Integral Technology 第2回ユーザカンファレンス 〜すべてをクラウドで解析するための方法〜
 
AWSが誕生するまでの秘話
AWSが誕生するまでの秘話AWSが誕生するまでの秘話
AWSが誕生するまでの秘話
 
拡がるクラウドの利用用途 - AWSの強みとクラウド活用最新事例 -
拡がるクラウドの利用用途 - AWSの強みとクラウド活用最新事例 -拡がるクラウドの利用用途 - AWSの強みとクラウド活用最新事例 -
拡がるクラウドの利用用途 - AWSの強みとクラウド活用最新事例 -
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
 
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
 
AWSでのビッグデータ分析
AWSでのビッグデータ分析AWSでのビッグデータ分析
AWSでのビッグデータ分析
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
 

Mehr von Satoru Ishikawa (9)

Re invent 2017 データベースサービス総復習!
Re invent 2017 データベースサービス総復習!Re invent 2017 データベースサービス総復習!
Re invent 2017 データベースサービス総復習!
 
20161214 re growth-sapporo
20161214 re growth-sapporo20161214 re growth-sapporo
20161214 re growth-sapporo
 
Classmethod awsstudy ec2rds20160114
Classmethod awsstudy ec2rds20160114Classmethod awsstudy ec2rds20160114
Classmethod awsstudy ec2rds20160114
 
re:Growth ビッグデータ観点で見た AWS re:Invent 2015
re:Growth ビッグデータ観点で見た AWS re:Invent 2015re:Growth ビッグデータ観点で見た AWS re:Invent 2015
re:Growth ビッグデータ観点で見た AWS re:Invent 2015
 
db-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911pdb-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911p
 
Cmdevio2015 devday-g-3
Cmdevio2015 devday-g-3Cmdevio2015 devday-g-3
Cmdevio2015 devday-g-3
 
Cm re growth-devio-mtup11-sapporo-004
Cm re growth-devio-mtup11-sapporo-004Cm re growth-devio-mtup11-sapporo-004
Cm re growth-devio-mtup11-sapporo-004
 
Running Amazon S3 Encryption
Running Amazon S3 EncryptionRunning Amazon S3 Encryption
Running Amazon S3 Encryption
 
Cloud Programing for beginner
Cloud Programing for beginnerCloud Programing for beginner
Cloud Programing for beginner
 

re:Growth2019 Analytics Updates