SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Tableau Prepを使ってデータを武器にしよう!
自己紹介
日下 亜紀(Kusaka Aki)
• (株)truestar所属
• シニアコンサルタント
• Tableau・Alteryxの導入支援、
ダッシュボード開発などを担当
• 元Web系・アプリエンジニア
2
Tableau Prepってなに?
• データを整形するためのツール
• Tableau Creatorのライセンスがあればだれでも利用可能
3
接続ペイン
フローペイン
プロファイルペイン
データグリッド
Tableau Prepってなに?
• データを整形するためのツール
• Tableau Creatorのライセンスがあればだれでも利用可能
4
接続ペイン
フローペイン
プロファイルペイン
データグリッド
何ができるの?
・多様なデータソースに接続
・テーブル結合(JOIN、UNION)
・データ変換(ピボット、型変換、値変換、名寄せ、フィルタ、
計算フィールドの追加、フィルタ、データの分割…など)
・集計・グループ化
・R・Pythonスクリプトの埋め込み
・出力(Tableau Server/Online、Excel、csv、hyper、各種データベース)
5
インストールするだけでデータ加工の基本部分は
すべてそろいます!!
Tableau Desktopとの使い分け
6
Tableau Desktop
Tableau Prep Builder
データの整形をやる
計算は全部Prepでやる
データを表示させるだけ!
計算はなるべくさせない!
メンテナンス性↑↑↑
パフォーマンス性↑↑↑
今日お話しすること
• Prep今昔物語~アップデート内容のご紹介~
• PrepのGoodポイントとNot so Goodポイント
• まとめ
7
⇒対応策も!
8
Prep今昔物語
~アップデート内容のご紹介~
アップデート内容個人的目玉機能(Tableau Prep Builder)
・データ更新の一時停止機能(20.1.1)
・LOD計算、RANK関数、ROW_NUMBER関数の追加(20.1.3)
9
20.1
20.2
20.3
20.4
21.1
21.2
21.3
アップデート内容個人的目玉機能(Tableau Prep Builder)
・外部データベースへ出力が可能に(20.3.1)
・コマンドラインからフロー実行するときのjson認証の簡略化(20.3.1)
・ステップのグループ化(20.3.3)
10
20.1
20.2
20.3
20.4
21.1
21.2
21.3
↑たたむことも可
アップデート内容個人的目玉機能(Tableau Prep Builder)
・Web上でのフローの作成/編集が可能に(20.4.4)
・Excelへのデータ書きだし(21.1.2)
・フィールドの非表示機能(21.1.4)
・日付変換機能のオプション追加(21.1.4)
・エラーメッセージの改善(21.1.4)
11
20.1
20.2
20.3
20.4
21.1
21.2
21.3
アップデート内容個人的目玉機能(Tableau Prep Builder)
・Google BigQueryテーブルにデータを書きだし(21.2.2)
・フィールド名の一括変更(21.2.1)
12
20.1
20.2
20.3
20.4
21.1
21.2
21.3
・一部の文字列の置換
・プレフィックス追加
・サフィックス追加
Coming soon!
13
PrepのGoodポイントとNot so Goodポイント
PrepのGoodポイントとNot so Goodポイント
・操作がわかりやすく直感的に扱える
・処理の内容が可視化されているのでメンテナンスが容易
・導入コストが抑えられる
Not so Good… • とにかく重い…
14
Good!!
15
Prepでの操作を軽くするための方法
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
②データのサンプリング機能を使用して少なくしましょう
③データのフィルターはできるだけ早い段階で行いましょう
④集計処理は結合処理の前に置きましょう
⑤データの更新の一時停止機能を活用しましょう
⑥使わないカラムは落としておきましょう
⑦端末のスペックを上げられるなら上げましょう
16
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
②データのサンプリング機能を使用して少なくしましょう
③データのフィルターはできるだけ早い段階で行いましょう
④集計処理は結合処理の前に置きましょう
⑤データの更新の一時停止機能を活用しましょう
⑥使わないカラムは落としておきましょう
⑦端末のスペックを上げられるなら上げましょう
17
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
18
ワイルドカードユニオンでフォルダ配下の
csvやExcelを一括取得できます
データ量が多い=処理対象も多いので
比例してパフォーマンス低下に繋がります
許容量は未知ですが、
「数千万件のデータ×過去分すべて」など
Prepが落ちるので避けた方が良いです
どうしてもデータ量が多い場合は
hyperに加工してから読み込むと◎
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
②データのサンプリング機能を使用して少なくしましょう
③データのフィルターはできるだけ早い段階で行いましょう
④集計処理は結合処理の前に置きましょう
⑤データの更新の一時停止機能を活用しましょう
⑥使わないカラムは落としておきましょう
⑦端末のスペックを上げられるなら上げましょう
19
Prepでの操作を軽くするための方法
②データのサンプリング機能を使用して少なくしましょう
20
固定の行数で1000件などにしてあげると
数十分かかってた処理も数秒ですみます
↑データの全量じゃないので注意
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
②データのサンプリング機能を使用して少なくしましょう
③データのフィルターはできるだけ早い段階で行いましょう
④集計処理は結合処理の前に置きましょう
⑤データの更新の一時停止機能を活用しましょう
⑥使わないカラムは落としておきましょう
⑦端末のスペックを上げられるなら上げましょう
21
Prepでの操作を軽くするための方法
③データのフィルターはできるだけ早い段階で行いましょう
22
可能であればInput直後には
フィルターしましょう
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
②データのサンプリング機能を使用して少なくしましょう
③データのフィルターはできるだけ早い段階で行いましょう
④集計処理は結合処理の前に置きましょう
⑤データの更新の一時停止機能を活用しましょう
⑥使わないカラムは落としておきましょう
⑦端末のスペックを上げられるなら上げましょう
23
Prepでの操作を軽くするための方法
④集計処理は結合処理の前に置きましょう
24
処理データ量が少ない段階で
集計処理を入れましょう
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
②データのサンプリング機能を使用して少なくしましょう
③データのフィルターはできるだけ早い段階で行いましょう
④集計処理は結合処理の前に置きましょう
⑤データの更新の一時停止機能を活用しましょう
⑥使わないカラムは落としておきましょう
⑦端末のスペックを上げられるなら上げましょう
25
Prepでの操作を軽くするための方法
⑤データの更新の一時停止機能を活用しましょう
26
開発が数段早く進みます
停止すると使えなくなるので注意
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
②データのサンプリング機能を使用して少なくしましょう
③データのフィルターはできるだけ早い段階で行いましょう
④集計処理は結合処理の前に置きましょう
⑤データの更新の一時停止機能を活用しましょう
⑥使わないカラムは落としておきましょう
⑦端末のスペックを上げられるなら上げましょう
27
Prepでの操作を軽くするための方法
⑥使わないカラムは落としておきましょう
28
Inputの段階で落としてあげると
非常にgood
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
②データのサンプリング機能を使用して少なくしましょう
③データのフィルターはできるだけ早い段階で行いましょう
④集計処理は結合処理の前に置きましょう
⑤データの更新の一時停止機能を活用しましょう
⑥使わないカラムは落としておきましょう
⑦端末のスペックを上げられるなら上げましょう
29
Prepでの操作を軽くするための方法
⑦端末のスペックを上げられるなら上げましょう
30
•Intel Core i3 または AMD
Ryzen 3 (デュアルコア)
•メモリ4 GB 以上
•HDD の空き容量 2 GB 以上
•CPU は SSE4.2 および
POPCNT 命令セットをサポートし
ていることが必要
最小要件
• Intel Core i7 または AMD
Ryzen 7 (クアッドコア)
•メモリ16GB 以上
•SSD の空き容量 2 GB 以上
推奨要件
•Intel Core i7 または AMD
Ryzen 7 (8 コア)
•メモリ32GB 以上
•SSD の空き容量 2 GB 以上
高パフォーマンス
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
②データのサンプリング機能を使用して少なくしましょう
③データのフィルターはできるだけ早い段階で行いましょう
④集計処理は結合処理の前に置きましょう
⑤データの更新の一時停止機能を活用しましょう
⑥使わないカラムは落としておきましょう
⑦端末のスペックを上げられるなら上げましょう
31
Prepでの操作を軽くするための方法
①ワイルドカードユニオンに読み込ませるデータはなるべく絞り込みましょう
②データのサンプリング機能を使用して少なくしましょう
③データのフィルターはできるだけ早い段階で行いましょう
④集計処理は結合処理の前に置きましょう
⑤データの更新の一時停止機能を活用しましょう
⑥使わないカラムは落としておきましょう
⑦端末のスペックを上げられるなら上げましょう
32
データ量を減らす
計算効率向上
更新ストップ
おまけ
操作ログはすぐ溜まってしまうのでHDDの容量を圧迫します。
定期的に消しましょう!
C:Users~Documentsマイ Tableau Prep リポジトリログ
33
34
まとめ
この世には分析するまでに至る経路が長すぎるシーンが多い…
そんな時、煩わしかったデータ加工もだれでも簡単にできる方法を
知っていればデータの精度を高めて武器として使うことができます!
まだ使っていない人も、一度使ってやめてしまった人も…
Let’s Tableau Prep!!
今日お伝えしたかったこと
35
https://blog.truestar.co.jp/
36
https//www.truestar.co.jp/
Ebisu Business Tower 4F | 1-19-19 Ebisu | Shibuya-ku | Tokyo 150-0013 | Japan
Tel: 03 5422 6561 | Fax: 03 5422 6562 | e-mail: info@truestar.co.jp

Weitere ähnliche Inhalte

Was ist angesagt?

Hadoopことはじめ
HadoopことはじめHadoopことはじめ
HadoopことはじめKatsunori Kanda
 
僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニアYu Yamada
 
リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術Yu Yamada
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)Atsushi Kurumada
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureSatoru Ishikawa
 

Was ist angesagt? (9)

Hadoopことはじめ
HadoopことはじめHadoopことはじめ
Hadoopことはじめ
 
Hadoop 基礎
Hadoop 基礎Hadoop 基礎
Hadoop 基礎
 
大規模クラスタでのHadoop課題
大規模クラスタでのHadoop課題大規模クラスタでのHadoop課題
大規模クラスタでのHadoop課題
 
分散システム処理モデルの課題および展望#yjdsw3
分散システム処理モデルの課題および展望#yjdsw3分散システム処理モデルの課題および展望#yjdsw3
分散システム処理モデルの課題および展望#yjdsw3
 
僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア
 
リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
 
ビッグデータとデータマート
ビッグデータとデータマートビッグデータとデータマート
ビッグデータとデータマート
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
 

Ähnlich wie Prepを使ってデータを武器にしよう!

Twitterのフォロワの増減がわたし…、 気になります! (OSC 2012 広島, Hiroshima.rb)
Twitterのフォロワの増減がわたし…、 気になります! (OSC 2012 広島, Hiroshima.rb)Twitterのフォロワの増減がわたし…、 気になります! (OSC 2012 広島, Hiroshima.rb)
Twitterのフォロワの増減がわたし…、 気になります! (OSC 2012 広島, Hiroshima.rb)Yukinori KITADAI
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Takahiro Inoue
 
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauDataWorks Summit
 
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、などTableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、などRyusuke Ashiya
 
AI for Business - Microsoft AI Business summit 2018
AI for Business - Microsoft AI Business summit 2018AI for Business - Microsoft AI Business summit 2018
AI for Business - Microsoft AI Business summit 2018Daiyu Hatakeyama
 
OpenStack Trove 技術解説
OpenStack Trove 技術解説OpenStack Trove 技術解説
OpenStack Trove 技術解説Toru Makabe
 
Tableau Developers Club 外部サービス連携#1 Tabpy触ってみよう#1
Tableau Developers Club 外部サービス連携#1 Tabpy触ってみよう#1Tableau Developers Club 外部サービス連携#1 Tabpy触ってみよう#1
Tableau Developers Club 外部サービス連携#1 Tabpy触ってみよう#1Hiroshi Masuda
 
R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜機会学習・データビジュアライゼーション事始め〜
R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜機会学習・データビジュアライゼーション事始め〜R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜機会学習・データビジュアライゼーション事始め〜
R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜機会学習・データビジュアライゼーション事始め〜Yasuyuki Sugai
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesignRyoma Nagata
 
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16Ryusuke Ashiya
 
TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方
TFUG#3  Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方TFUG#3  Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方
TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方Masato Taruishi
 
情報システムの性能マネジメントについて
情報システムの性能マネジメントについて情報システムの性能マネジメントについて
情報システムの性能マネジメントについてTakashi Natsume
 
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkRyoma Nagata
 
Tableauから始める機械学習ーやってみようPython連携_2019-05-23
Tableauから始める機械学習ーやってみようPython連携_2019-05-23Tableauから始める機械学習ーやってみようPython連携_2019-05-23
Tableauから始める機械学習ーやってみようPython連携_2019-05-23Tomohiro Iwahashi
 
Tableauのつまづきポイント
TableauのつまづきポイントTableauのつまづきポイント
TableauのつまづきポイントShinji Tamura
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
sitTokyo2022_Dev_05_Kawanabe.pptx
sitTokyo2022_Dev_05_Kawanabe.pptxsitTokyo2022_Dev_05_Kawanabe.pptx
sitTokyo2022_Dev_05_Kawanabe.pptxssuser5bff5a
 

Ähnlich wie Prepを使ってデータを武器にしよう! (20)

Twitterのフォロワの増減がわたし…、 気になります! (OSC 2012 広島, Hiroshima.rb)
Twitterのフォロワの増減がわたし…、 気になります! (OSC 2012 広島, Hiroshima.rb)Twitterのフォロワの増減がわたし…、 気になります! (OSC 2012 広島, Hiroshima.rb)
Twitterのフォロワの増減がわたし…、 気になります! (OSC 2012 広島, Hiroshima.rb)
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
 
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and Tableau
 
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、などTableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
 
AI for Business - Microsoft AI Business summit 2018
AI for Business - Microsoft AI Business summit 2018AI for Business - Microsoft AI Business summit 2018
AI for Business - Microsoft AI Business summit 2018
 
OpenStack Trove 技術解説
OpenStack Trove 技術解説OpenStack Trove 技術解説
OpenStack Trove 技術解説
 
Tableau Developers Club 外部サービス連携#1 Tabpy触ってみよう#1
Tableau Developers Club 外部サービス連携#1 Tabpy触ってみよう#1Tableau Developers Club 外部サービス連携#1 Tabpy触ってみよう#1
Tableau Developers Club 外部サービス連携#1 Tabpy触ってみよう#1
 
R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜機会学習・データビジュアライゼーション事始め〜
R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜機会学習・データビジュアライゼーション事始め〜R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜機会学習・データビジュアライゼーション事始め〜
R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜機会学習・データビジュアライゼーション事始め〜
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
Tableau r graph_theory
Tableau r graph_theoryTableau r graph_theory
Tableau r graph_theory
 
Tableau r graph_theory
Tableau r graph_theoryTableau r graph_theory
Tableau r graph_theory
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesign
 
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
 
TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方
TFUG#3  Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方TFUG#3  Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方
TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方
 
情報システムの性能マネジメントについて
情報システムの性能マネジメントについて情報システムの性能マネジメントについて
情報システムの性能マネジメントについて
 
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
 
Tableauから始める機械学習ーやってみようPython連携_2019-05-23
Tableauから始める機械学習ーやってみようPython連携_2019-05-23Tableauから始める機械学習ーやってみようPython連携_2019-05-23
Tableauから始める機械学習ーやってみようPython連携_2019-05-23
 
Tableauのつまづきポイント
TableauのつまづきポイントTableauのつまづきポイント
Tableauのつまづきポイント
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
sitTokyo2022_Dev_05_Kawanabe.pptx
sitTokyo2022_Dev_05_Kawanabe.pptxsitTokyo2022_Dev_05_Kawanabe.pptx
sitTokyo2022_Dev_05_Kawanabe.pptx
 

Prepを使ってデータを武器にしよう!