SlideShare a Scribd company logo
1 of 23
Datalake
Datalake?
• A data lake is a method of storing data within a system or repository,in its
natural format, that facilitates the collocation of data in variousschemata and
structural forms, usually object blobs or files.
• The idea of data lake is to have a single store of all data in the enterprise
ranging from rawdata (which implies exact copy of source system data) to
transformed data whichis used for various tasks including reporting, visualization,
analytics andmachine learning.
• The data lake includes structured data from relationaldatabases (rows and
columns), semi-structured data (CSV, logs, XML, JSON),unstructured data
(emails, documents, PDFs) and even binary data (images, audio,video) thus
creating a centralized data store accommodating all forms of data.
• https://en.wikipedia.org/wiki/Data_lake
ETL
• Extract
• Transform
• Load
ETL?
Extract/Transform/Load(略称:ETL)とは、データウェアハウスにおける以下のような工程を指
す。
• Extract - 外部の情報源からデータを抽出
• Transform - 抽出したデータをビジネスでの必要に応じて変換・加工
• Load - 最終的ターゲット(すなわちデータウェアハウス)に変換・加工済みのデータをロード
ETLは、データウェアハウスにデータを実際にロードする方法として重要である。ETLという用語は
データウェアハウスでのデータのロードだけでなく、任意のデータベースでのロード工程を指すこ
ともある。ETLはレガシーシステムとの統合にも使われる。通常のETL実装は、処理についての監査
証跡を記録する。ほとんど全ての設計において、この監査証跡は、元のデータが利用不可能な場合
にETLの結果を再現できるほどの細粒度のレベルにはなっていない。
https://ja.wikipedia.org/wiki/Extract/Transform/Load
よくある要望
データの変更がよくあって、いちいち開
発費払ってられないんで、変更は自分で
やりたい
Cloud Dataprep
•分析用データを視覚的に探索、クリーニング、準備
するためのインテリジェント クラウドデータ サービ
ス(https://cloud.google.com/dataprep/?hl=ja)
•フルマネージド
•Prep==準備
•UIが秀逸
•データ分析の前準備は、Dataprepで全てできるかも
Excel
CSV
JSON
TXT
LOG
TSV
Avro
CSV
JSON
Avro
• 検出
• クレンジング
• 拡張
CSV
JSON
TXT
LOG
TSV
Avro
CSV
JSON
Avro
• 検出
• クレンジング
• 拡張
Excel
Cloud Dataprep
mismatched
missing
Cloud Dataprep
あるデータをクリックすると
クリックしたデータが反転する
Cloud Dataprep
Cloud Dataprep
エンジニア目線のUSE CASE
•データをもらったらとりあえずDataprepに入れて眺める
•開発するにしてもイメージをつかみやすい
•お客さんに見せる
•このデータじゃ無理でしょ・・・
•Tableauとかいらなくね?
残念なところ
RDBで使いたい
残念なところ
Google Ghromeしか使えない
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
GCPUG in Osaka #6 5分でCloud Dataprepを説明する

More Related Content

Similar to GCPUG in Osaka #6 5分でCloud Dataprepを説明する

DBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixDBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixMasaya Ishikawa
 
マイニング探検会#10
マイニング探検会#10マイニング探検会#10
マイニング探検会#10Yoji Kiyota
 
とっておきの方法! Oracle Databaseの自動アップグレードのお勧め手法 省力・最新化 概要編 (Oracle Cloudウェビナーシリーズ: ...
とっておきの方法! Oracle Databaseの自動アップグレードのお勧め手法 省力・最新化 概要編 (Oracle Cloudウェビナーシリーズ: ...とっておきの方法! Oracle Databaseの自動アップグレードのお勧め手法 省力・最新化 概要編 (Oracle Cloudウェビナーシリーズ: ...
とっておきの方法! Oracle Databaseの自動アップグレードのお勧め手法 省力・最新化 概要編 (Oracle Cloudウェビナーシリーズ: ...オラクルエンジニア通信
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeHideo Takagi
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビックTech Summit 2016
 
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔Insight Technology, Inc.
 
iOS/Androidにも対応した SQL Anywhere 12の魅力
iOS/Androidにも対応した SQL Anywhere 12の魅力iOS/Androidにも対応した SQL Anywhere 12の魅力
iOS/Androidにも対応した SQL Anywhere 12の魅力nisobe58
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...Insight Technology, Inc.
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビックTech Summit 2016
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data PlatformNaoki (Neo) SATO
 
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみたAWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみたtatsuya 264
 
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructureSmart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructureDataWorks Summit
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例Tetsutaro Watanabe
 
Vc1 idc管理 ご紹介資料 2011-01-20(kmt)
Vc1 idc管理 ご紹介資料 2011-01-20(kmt)Vc1 idc管理 ご紹介資料 2011-01-20(kmt)
Vc1 idc管理 ご紹介資料 2011-01-20(kmt)Manabu_Shimohira
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]Hideo Takagi
 

Similar to GCPUG in Osaka #6 5分でCloud Dataprepを説明する (20)

DBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixDBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - Delphix
 
マイニング探検会#10
マイニング探検会#10マイニング探検会#10
マイニング探検会#10
 
OCI Data Catalog Overview 2021年5月版
OCI Data Catalog Overview 2021年5月版OCI Data Catalog Overview 2021年5月版
OCI Data Catalog Overview 2021年5月版
 
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
 
とっておきの方法! Oracle Databaseの自動アップグレードのお勧め手法 省力・最新化 概要編 (Oracle Cloudウェビナーシリーズ: ...
とっておきの方法! Oracle Databaseの自動アップグレードのお勧め手法 省力・最新化 概要編 (Oracle Cloudウェビナーシリーズ: ...とっておきの方法! Oracle Databaseの自動アップグレードのお勧め手法 省力・最新化 概要編 (Oracle Cloudウェビナーシリーズ: ...
とっておきの方法! Oracle Databaseの自動アップグレードのお勧め手法 省力・最新化 概要編 (Oracle Cloudウェビナーシリーズ: ...
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビック
 
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
 
iOS/Androidにも対応した SQL Anywhere 12の魅力
iOS/Androidにも対応した SQL Anywhere 12の魅力iOS/Androidにも対応した SQL Anywhere 12の魅力
iOS/Androidにも対応した SQL Anywhere 12の魅力
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビック
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
 
20180216 sapporo techbar_db_migration
20180216 sapporo techbar_db_migration20180216 sapporo techbar_db_migration
20180216 sapporo techbar_db_migration
 
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみたAWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
 
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructureSmart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructure
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例
 
Vc1 idc管理 ご紹介資料 2011-01-20(kmt)
Vc1 idc管理 ご紹介資料 2011-01-20(kmt)Vc1 idc管理 ご紹介資料 2011-01-20(kmt)
Vc1 idc管理 ご紹介資料 2011-01-20(kmt)
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
 

GCPUG in Osaka #6 5分でCloud Dataprepを説明する

Editor's Notes

  1. この画像は、著作権フリーのサイトからダウンロードしています
  2. datalakeをwikiで調べると、このページが出てきます 日本語ページはないみたいですね ここにいる皆さんなら問題ないでしょう
  3. dataprepの紹介
  4. 画面1 デフォルト表示 データのバラつきが判る
  5. 画面2 赤はmismatch 黒はmissing
  6. 画面3 棒グラフを指定すると、該当するデータの色が変わる
  7. 画面5 変換処理は好きにできる
  8. 画面4 Setをクリックすると提案されている変換処理の実行のプレビューが見れる