SlideShare ist ein Scribd-Unternehmen logo
1 von 40
オープンソースのETLツール 
Pentaho Data Integration(PDI) 
のご紹介 
PostgreSQLアンカンファレンス@東京(9/6) 
KSKアナリティクス 
川崎照夫 
TwitterID:@teruu
自己紹介 
川崎照夫 
TwitterID: @teruu 
所属:KSKアナリティクス 
BI歴:2年(※BI:ビジネス・インテリジェンス) 
DB歴:17年
DWH系データベースを探しています 
HP Vertica Community Edition 
→ production環境も可 
PostgreSQL-XL 
→ 永安さんブログ 
「Chef/serverspecを使ってPostgres-XLを2分でデプロイする」 
http://pgsqldeepdive.blogspot.jp/2014/06/deploying-postgres-xl-chef-serverspec.html 
関連ツイート(今回このツイートを見て、この会に参加させていただきました) 
https://twitter.com/snaga/status/491907303155564544
こちらの永安さん 
のやり取りを拝見 
したのがきっかけ 
で今回参加させて 
いただきました
自己紹介 
オープンソースBI 勉強会#10 
https://atnd.org/events/56153
Yahooリアルタイム検索 
「pentaho」定点観測中 
・「日本語の資料が全然ない」というツイート 
日本のPentahoユーザ 
・日本語の情報が見つからない 
・やりたいことがなかなかできない(簡単なことなのに...) 
・フラストレーションがたまりがち 
Pentahoのチュートリアル資料を充実 
6/83
これまでの開催 
• #5 MongoDB+Pentaho ハンズオン 
• #6 OLAP ハンズオン 
• #7 ETL ハンズオン 
• #8 定型レポート 
• #9 CTools (ダッシュボード)
次回以降 
• #10 OLAPハンズオン(9/30) 
• #11 ETLハンズオン 
• #12 定型レポートハンズオン 
• #13 CTools(ダッシュボード)ハンズオン
これまでの資料 
オープンソースBI勉強会メモ 
• #7 ETL ハンズオン 
http://www.slideshare.net/teruok/pdi-tutorial-20140121 
• #8 定型レポート 
http://www.slideshare.net/teruok/pentaho-reporting-20140729
会員制ドキュメント・ダウンロード・サービス「LiBRA」 
(リブラ) 
→提供資料の加工編集、再配布が可能 
(http://libra.netcommerce.co.jp/) 
以降はLiBRAの「ビジネス・インテリジェンス」から引用 
(http://libra.netcommerce.co.jp/library/knowledge/841)
ETLツール使ってますか? 
• 商用製品 
• オープンソース(出典:Wikipedia) 
– Talend Open Studio for Data Integration 
– JasperReports ETL 
– Clover.ETL 
– Enhydra Octopus 
– Pentaho Data Integration
オープンソースのETLツール 
Pentaho Data Integration(PDI)
GitHub(ギットハブ)での開発 
PDIをはじめPentahoのオープンソース製品は、ソフトウェア 
開発のための共有ウェブサービスである「GitHub」を利用し 
て開発が行われています。 
GitHubにアクセスすることで、活発なソフトウェア開発の様 
子を見ることができます。また、公開されているソースコー 
ドを参照でき、バグの修正などの形でPDIのソフトウェア開 
発に参加することも可能です。 
◇PDIのGitHubリポジトリ 
https://github.com/pentaho/pentaho-kettle
ダウンロード 
• Pentaho配布サイト 
http://community.pentaho.com/ 
http://sourceforge.net/projects/pentaho/files/ 
• Pentaho配布サイトPDI 
http://sourceforge.net/projects/pentaho/files/Data%2 
0Integration/ 
• ダウンロード候補 
– pdi-ce-5.1.0.0-752.zip
インストール 
• ダウンロードするだけ(Javaの環境があれ 
ば) 
• DBのJDBCドライバを追加 
– postgresqlのドライバは同梱されている 
• SourceForgeのサイトからダウンロードし、 
Windowsであれば、解凍したフォルダ中の 
Spoon.batをダブルクリック 
• 起動後、言語の設定を確認(日本語に 
なっているか)
Spoon起動Windowsの場合、Spoon.batファイルをダブ 
ルクリックして起動します。
新規→データ変換ファイル→新規→データ変換、を 
選択します。 
デザイン 
タブ 
ツールバー 
キャンバス
データ変換作成 
• DB出力 
(※過去のハンズオンから) 
詳細は下記資料をごらんください。 
#7 ETL ハンズオン 
http://www.slideshare.net/teruok/pdi-tutorial-20140121
テキストファイル入力 
新規→データ変換を選択。 
「入力」ノードから「テキストファイ 
ル入力」を選択。
ステップ配置 
「出力」ノードから「テキストファイ 
ル出力」を選択。下記のように配 
置します。
「テキストファイル入力」ス 
テップで先ほど出力したファイ 
ルを指定。 
「プレビュー」ボタンをクリッ 
ク。 
テキストファイル入力
プレビュープレビューを確認。
テキストファイル入力 
全般タブ 
全般タブで「入力タブ」ボタン 
をクリックしてタブを入力。
テキストファイル入力 
フィールドタブ 
「フィールドを取得」をクリッ 
ク。
走査した結果走査した結果が表示される。
テーブル出力 
「テーブル出力」ステップを編集。テーブル名 
を指定。「列名を指定する」チェックボックス 
をONに。「フィールドを取得」ボタンをク 
リックして、フィールド欄に自動記入。 
「SQL」ボタンをクリック。
SQL文生成、実行 
CREATE TABLE文が生成される。 
「実行」ボタンをクリックして、 
出力先のテーブル作成。
「フィールドマッピング」ボタ 
ンをクリックして、マッピング 
の内容を確認。 
フィールドマッピング
実行ツールバーの「実行」をクリッ 
ク。「実行」ボタンをクリック。
実行結果実行結果が表示される。
照会 
DBに出力した内容を確認。 
ビュータブのデータベース接続 
から該当の接続を右クリックし 
て、「照会」を選択。
データベース 
エクスプローラー 
該当のテーブルを選択。
プレビュー該当のテーブルを右クリックし 
て、「x行プレビュー」を選択。
プレビューテーブルの内容が表示される。
データ変換作成 
• DB出力
関連書籍 
ハンズオンのスライドでは、左側の「Pentaho Data Integration Beginner’s 
Guide」の内容を一部参考にしています。
不明な点 
• Pentahoのフォーラムへ 
– 日本語でコミュニティー・サポート 
http://forums.pentaho.com/forumdisplay.php?86
オープンソースBI 勉強会#10 
https://atnd.org/events/56153 
9/30(火)19:00~ 大崎 
オープンソースカンファレンス2014 Tokyo/Fall 
http://www.ospn.jp/osc2014-fall/ 
10/18(土)、19日(日) 
→ 「オープンソースBI勉強会」コミュニティで出展予定

Weitere ähnliche Inhalte

Ähnlich wie オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!泰史 栃折
 
オープンソースBI勉強会Mongo-20140325
オープンソースBI勉強会Mongo-20140325オープンソースBI勉強会Mongo-20140325
オープンソースBI勉強会Mongo-20140325Hisashi Nakayama
 
今時のオンプレなgithubクローン環境構築
今時のオンプレなgithubクローン環境構築今時のオンプレなgithubクローン環境構築
今時のオンプレなgithubクローン環境構築You&I
 
Mizuno buddypress-plugin
Mizuno buddypress-pluginMizuno buddypress-plugin
Mizuno buddypress-pluginIkuko Kanada
 
Mizuno buddypress-plugin
Mizuno buddypress-pluginMizuno buddypress-plugin
Mizuno buddypress-pluginFumito Mizuno
 
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...NTT DATA Technology & Innovation
 
[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)
[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)
[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)Masanori Ishigami
 
Programming AWS with Python
Programming AWS with Python  Programming AWS with Python
Programming AWS with Python Yasuhiro Matsuo
 
Before lunch オプションを使って Flutterでstaging/release環境を切り替える
Before lunch オプションを使って Flutterでstaging/release環境を切り替えるBefore lunch オプションを使って Flutterでstaging/release環境を切り替える
Before lunch オプションを使って Flutterでstaging/release環境を切り替えるcch-robo
 
DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1gree_tech
 
[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1Takashi Suzuki
 
PostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
PostgreSQLではじめるOSS開発@OSC 2014 HiroshimaPostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
PostgreSQLではじめるOSS開発@OSC 2014 HiroshimaShigeru Hanada
 
Metahub for github
Metahub for githubMetahub for github
Metahub for githubSuguru Oho
 
Getting Started with Graph Database with Python
Getting Started with Graph Database with PythonGetting Started with Graph Database with Python
Getting Started with Graph Database with Pythonロフト くん
 
ユーザ・デザイナーから見たPlone CMSのアピールポイント
ユーザ・デザイナーから見たPlone CMSのアピールポイントユーザ・デザイナーから見たPlone CMSのアピールポイント
ユーザ・デザイナーから見たPlone CMSのアピールポイントMasaki NIWA
 
20201008 GitHub at Microsoft
20201008 GitHub at Microsoft20201008 GitHub at Microsoft
20201008 GitHub at MicrosoftIssei Hiraoka
 
Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Kazuto Kusama
 
Gitlab ci & ecsへのデプロイ
Gitlab ci & ecsへのデプロイGitlab ci & ecsへのデプロイ
Gitlab ci & ecsへのデプロイiwata jaws-ug
 

Ähnlich wie オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906 (20)

パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
 
オープンソースBI勉強会Mongo-20140325
オープンソースBI勉強会Mongo-20140325オープンソースBI勉強会Mongo-20140325
オープンソースBI勉強会Mongo-20140325
 
今時のオンプレなgithubクローン環境構築
今時のオンプレなgithubクローン環境構築今時のオンプレなgithubクローン環境構築
今時のオンプレなgithubクローン環境構築
 
Yapc2012資料
Yapc2012資料Yapc2012資料
Yapc2012資料
 
Mizuno buddypress-plugin
Mizuno buddypress-pluginMizuno buddypress-plugin
Mizuno buddypress-plugin
 
Mizuno buddypress-plugin
Mizuno buddypress-pluginMizuno buddypress-plugin
Mizuno buddypress-plugin
 
Git 20100724
Git 20100724Git 20100724
Git 20100724
 
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
 
[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)
[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)
[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)
 
Programming AWS with Python
Programming AWS with Python  Programming AWS with Python
Programming AWS with Python
 
Before lunch オプションを使って Flutterでstaging/release環境を切り替える
Before lunch オプションを使って Flutterでstaging/release環境を切り替えるBefore lunch オプションを使って Flutterでstaging/release環境を切り替える
Before lunch オプションを使って Flutterでstaging/release環境を切り替える
 
DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1
 
[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1
 
PostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
PostgreSQLではじめるOSS開発@OSC 2014 HiroshimaPostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
PostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
 
Metahub for github
Metahub for githubMetahub for github
Metahub for github
 
Getting Started with Graph Database with Python
Getting Started with Graph Database with PythonGetting Started with Graph Database with Python
Getting Started with Graph Database with Python
 
ユーザ・デザイナーから見たPlone CMSのアピールポイント
ユーザ・デザイナーから見たPlone CMSのアピールポイントユーザ・デザイナーから見たPlone CMSのアピールポイント
ユーザ・デザイナーから見たPlone CMSのアピールポイント
 
20201008 GitHub at Microsoft
20201008 GitHub at Microsoft20201008 GitHub at Microsoft
20201008 GitHub at Microsoft
 
Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践
 
Gitlab ci & ecsへのデプロイ
Gitlab ci & ecsへのデプロイGitlab ci & ecsへのデプロイ
Gitlab ci & ecsへのデプロイ
 

Mehr von Teruo Kawasaki

Lambda in java_20160121
Lambda in java_20160121Lambda in java_20160121
Lambda in java_20160121Teruo Kawasaki
 
Pentaho 定型レポート ハンズオン
Pentaho 定型レポート ハンズオンPentaho 定型レポート ハンズオン
Pentaho 定型レポート ハンズオンTeruo Kawasaki
 
Pentaho Reporting Tutorial 20140729
Pentaho Reporting Tutorial 20140729Pentaho Reporting Tutorial 20140729
Pentaho Reporting Tutorial 20140729Teruo Kawasaki
 
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTeruo Kawasaki
 
2章グラフ理論スピード入門
2章グラフ理論スピード入門2章グラフ理論スピード入門
2章グラフ理論スピード入門Teruo Kawasaki
 

Mehr von Teruo Kawasaki (6)

Lambda in java_20160121
Lambda in java_20160121Lambda in java_20160121
Lambda in java_20160121
 
Pentaho 定型レポート ハンズオン
Pentaho 定型レポート ハンズオンPentaho 定型レポート ハンズオン
Pentaho 定型レポート ハンズオン
 
Pentaho Reporting Tutorial 20140729
Pentaho Reporting Tutorial 20140729Pentaho Reporting Tutorial 20140729
Pentaho Reporting Tutorial 20140729
 
About BI (2014/03/25)
About BI (2014/03/25)About BI (2014/03/25)
About BI (2014/03/25)
 
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
 
2章グラフ理論スピード入門
2章グラフ理論スピード入門2章グラフ理論スピード入門
2章グラフ理論スピード入門
 

オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

Hinweis der Redaktion

  1. 図左上:pentahoリポジトリ 図左下:pentaho-kettleリポジトリのプルリクエスト一覧 図右上:ソースコードのdiff画面(差分表示)