SlideShare a Scribd company logo
Suche senden
Hochladen
Einloggen
Registrieren
Pentaho ETL
Melden
Hirokazu Tokuno
Folgen
Founder of Tokunology LLC/Software Developer at Texas Instruments Japan
23. Nov 2013
•
0 gefällt mir
•
6,649 views
1
von
25
Pentaho ETL
23. Nov 2013
•
0 gefällt mir
•
6,649 views
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Melden
Weiterbildung und Persönlichkeitsentwicklung
JAWS-UG 会津 第3回勉強会 with エフスタ!!での発表資料。説明出来なかったページ付き。
Hirokazu Tokuno
Folgen
Founder of Tokunology LLC/Software Developer at Texas Instruments Japan
Recomendados
Pentaho ETL ハンズオン
Teruo Kawasaki
5.9K views
•
125 Folien
Pdi tutorial 20140121
Teruo Kawasaki
3.7K views
•
91 Folien
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
Teruo Kawasaki
6.5K views
•
40 Folien
Pentaho CTools 20140902
Teruo Kawasaki
2.9K views
•
30 Folien
やって分かった自動テスト
Hirokazu Tokuno
1.3K views
•
21 Folien
Amazon DynamoDB 初心者が理解した事
Hirokazu Tokuno
5.1K views
•
63 Folien
Más contenido relacionado
Similar a Pentaho ETL
OSC 2020 August
Tomoki Maeda
349 views
•
11 Folien
Oss LT会_20210203
BrainPad Inc.
1.5K views
•
12 Folien
「仙台ミラソン」行って来た
Hirokazu Tokuno
594 views
•
14 Folien
マイコンボード色々
Hirokazu Tokuno
448 views
•
21 Folien
DockerHubを活用してAnsibleのPlaybookを自動ビルドする
Koji Shiraishi
1.9K views
•
20 Folien
Kintoneでエンジニアが納得のいく社内システムをつくる
Kazuki Murahama
1.4K views
•
22 Folien
Similar a Pentaho ETL
(20)
OSC 2020 August
Tomoki Maeda
•
349 views
Oss LT会_20210203
BrainPad Inc.
•
1.5K views
「仙台ミラソン」行って来た
Hirokazu Tokuno
•
594 views
マイコンボード色々
Hirokazu Tokuno
•
448 views
DockerHubを活用してAnsibleのPlaybookを自動ビルドする
Koji Shiraishi
•
1.9K views
Kintoneでエンジニアが納得のいく社内システムをつくる
Kazuki Murahama
•
1.4K views
Telloをarマーカーで操作する
ssuser81580e
•
637 views
【ヒカ☆ラボ】株式会社エアー様~ETLツール活用法について~
leverages_event
•
1.1K views
tfug-kagoshima
tak9029
•
1.3K views
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
Insight Technology, Inc.
•
1.9K views
Intellij idea for php
Kazuhiko Uno
•
3K views
ChainerでDeep Learningを試す為に必要なこと
Jiro Nishitoba
•
2.3K views
Out systemsaichiusermeeting#5 lt2
潤司 渡部
•
195 views
打ち破れ!初心者の壁!~非IT系独習者物語~
TaichiroHayakawa
•
425 views
Open capi meetup20180305
Yutaka Kawai
•
159 views
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
•
16.5K views
Webエンジニアが初めて機械学習に触れてみた話
Shohei Tai
•
487 views
OpenCAPI meetup 20180702
Yutaka Kawai
•
103 views
Tensorflow Liteの量子化アーキテクチャ
HitoshiSHINABE1
•
4.2K views
20130313_i18n_history_and_future
Yoichi Suehiro
•
449 views
Más de Hirokazu Tokuno
ChatGPTでしりとり
Hirokazu Tokuno
36 views
•
14 Folien
ChatGPTのLINEボット
Hirokazu Tokuno
69 views
•
11 Folien
初めてのRoblox.pdf
Hirokazu Tokuno
5 views
•
13 Folien
プログラミング講座【小学校高学年向け】 R3-20211128.pdf
Hirokazu Tokuno
31 views
•
60 Folien
(非公式) 福島県 新型コロナウイルス感染症対策サイトに 貢献しよう
Hirokazu Tokuno
484 views
•
23 Folien
Stripe触ってみた! Jekyll + AWS S3に組み込み
Hirokazu Tokuno
313 views
•
13 Folien
Más de Hirokazu Tokuno
(20)
ChatGPTでしりとり
Hirokazu Tokuno
•
36 views
ChatGPTのLINEボット
Hirokazu Tokuno
•
69 views
初めてのRoblox.pdf
Hirokazu Tokuno
•
5 views
プログラミング講座【小学校高学年向け】 R3-20211128.pdf
Hirokazu Tokuno
•
31 views
(非公式) 福島県 新型コロナウイルス感染症対策サイトに 貢献しよう
Hirokazu Tokuno
•
484 views
Stripe触ってみた! Jekyll + AWS S3に組み込み
Hirokazu Tokuno
•
313 views
福島県職員向けプログラミング
Hirokazu Tokuno
•
175 views
<女性限定>在宅ワーク講座 公開版 Django入門
Hirokazu Tokuno
•
91 views
会社作ってみた
Hirokazu Tokuno
•
846 views
小学校先生向けプログラミングワークショップ
Hirokazu Tokuno
•
788 views
シビックテックの勧め
Hirokazu Tokuno
•
294 views
徳納的シビックテック
Hirokazu Tokuno
•
688 views
マイコンボード色々 2017.03
Hirokazu Tokuno
•
304 views
Kickstart, Puppet, Docker
Hirokazu Tokuno
•
453 views
IoT without Wiring
Hirokazu Tokuno
•
179 views
電子工作部(未公認) 第一回 後付け資料
Hirokazu Tokuno
•
321 views
One Button
Hirokazu Tokuno
•
373 views
コードを書かずにIoT, IoT without-coding
Hirokazu Tokuno
•
656 views
潜水センサー
Hirokazu Tokuno
•
511 views
FabKura, Tokuniuno and Myself
Hirokazu Tokuno
•
395 views
Pentaho ETL
1.
Pentaho ETLで ドラッグ&ドロップ データ変換
2.
自己紹介 ● 徳納 弘和 (とくのう
ひろかず) ● 某社の工場のITシステム部門 ● 39才にしてIT部門へ移動して4年目 – ● 少し覚えた言語 – ● 遅れを取り戻すべく日夜勉強中 VBA, SQL, JavaScript, Java, Perl, Shell... コードを極力書かないのがお気に入り – Pentaho ETL, Oracle APEX, Mojolicious
3.
Pentaho ETLって? ● Pentaho – 世界で最も人気のあるオープンソースETLツール – 他にBIサーバー, OLAP,
Data Miningなども ETL (Extract, Transform, Load) – 何かを持って来て、加工して、出力する事
4.
何が良いの? ● Open Sourceで無料! ● 人気がある→活発な開発、長期サポート ● 有償サポートもあり ● 「プログラム」無しで簡単に処理出来る – ノンプログラマの学習コストが低い ● 高速処理 :
基本は行単位の並列実行 ● 多彩な標準部品 – 入出力 : Text, XML, DB(40種+!), Excel, CIFS, Mail – 複雑な処理はJavaScriptなどで記述可能
5.
ドラッグ&ドロップ ● 基本はマウス操作
6.
処理が見える ● データの流れが見える ● 前のStepの完了を待たずに次の処理が開始 – 特にDBなど遅いデバイスを使う場合に完了が早い
7.
DDL自動作成、SQL実行
8.
テーブル修正のSQLも自動作成
9.
こんな事も出来ます ● データのグラフ表示、分析 – ぱっとインタラクティブな分析 ● Clusteringで分散処理 ● 流行のHadoop連携 ● リモート処理用Webサーバー(Carte)
10.
良く無い所 ● 日本語の情報が少ない ● 「普通のプログラマ」に受けが良く無い – – GUI : 何でもクリックは手間 – 素人っぽさ
: この手のソフトは世界中で反発される – ● 並列処理 : 感覚的にShell scriptに近い 「いつも通り」に出来ない : 経験者利点がなくなる 型から外れると面倒 – Pentahoに限らず、Framework共通の欠点 – 入力列が未確定の場合は複雑な処理が必要 ● ETLファイルを動的に修正するとか、、、
11.
ご清聴ありがとうございました
12.
以下は時間が足りず、 話せなかった内容です。
13.
色々な標準部品 入力 ● CSV input 1ファイルの読み込み。 ● Text
file input 複数のファイルの読み込み。正規表現も可 ● Generate Rows 空や定数の入力を作る ● Get File Names フォルダ内のファイル名を取得 ● Data Grid Row毎に異なる値を設定可能 ● Table input データベースからの読み込み
14.
色々な標準部品 出力 Table output DBへの書き込み 入れ替えと追加だけ出来、変更は出来ない ● Update データベースの変更だけが出来る ● Insert
/ Update データベースの追加と変更が出来る ● Delete データベースの削除 ● Text file output ファイルへの書き込み ●
15.
色々な標準部品 変換 ● Select values 残すフィールドの指定 削除するフィールドの指定 フィールド名の変更、型変換 ● Calculator 計算。
機能が少ないので冗長になる。 Replace in string Modified Java Script Valueを代わりに使用 文字列の置き換え ● Row normalizer 1フィールドの置き換えだけの場合に使いま す。 複数の処理になるとModified Java Script Valueを使う事が多いです。 指定行を列に変換。使い方が難しい。 ● Row denormalizer 複数の列を行に変換。使い方が難しい。 ● Sort rows ● 並べ替え。良く使います
16.
色々な標準部品 ユーティリティ ● Write to
log デバッグに重要ですので出力しましょう ● Mail e-mailを送る
17.
色々な標準部品 フロー ● Abort エラーや異常値が見つかったら中断 ● Append streams 1つの入力の後に別の入力を繋げて出力 ● Dummy
(do nothing) デバッグに追加する事もある 複数入力を順序を気にせず繋げる場合にも ● Filter rows フィルターです。 非常に良く使います。 ● Java Filter 分岐条件をJava Expressionで書ける ● Switch / Case 条件によって複数の分岐先を指定
18.
色々な標準部品 スクリプト ● Modified Java
Script Javascriptを使って色々な処理が出来る 新しい列の作成、文字列の切り出し、 計算、型変換など。 使いすぎるとGUIの意味が無い、、、 ● Execute SQL script 入力を元にSQLを実行 Where条件でDeleteとか
19.
色々な標準部品 ルックアップ ● Stream lookup フィールドの値が同じ場合に 「ステップ名」のフィールドを取得 ● Database
lookup 入力を元にデータベースに問い合わせて フィールドを取得 毎回DBに問い合わせるので遅い。 大量のデータを処理するなら別にTable inputとStream lookupを使った方が良い。 ● Database join Database lookupは表かビューに対して 単純なlookupしか出来ないが、 joinでは複雑なSQLを書く事が出来る
20.
色々な標準部品 結合 ● Merge Join SQLで言う所のInner
Join, Outer Join ● Merge Rows (diff) 二つの入力の差を出力
21.
色々な標準部品 統計 ● Group by ユニークはRowだけを出力したり、件数を 数えたり、合計を計算したりする 文字列を連結する事も可能 ● Analytic
Query 前後のRowの情報を取得する事が出来る ● Sample rows テストでデータを減らしたりする場合に 使う事が多い 先頭行だけ取得したい時にも使う
22.
色々な標準部品 ジョブ ● Copy rows
to result 入力をメモリに保持 ● Get rows from result メモリから入力を取得 ● Get Variables 変数の取得 ● Set Variables 変数の設定
23.
色々な標準部品 マッピング ● Mapping (sub-transformation) いわゆるサブルーチンの呼び出し ● ● ● Mapping
input step サブルーチンでの入力取得 Mapping output step サブルーチンでの出力
24.
遅いStepも一目で見える
25.
参考 ● Pentaho.com(英語) ● Pentaho Community(英語) ● 開発者Matt Castersのブログ(英語) ● Adventures
with Open Source BI(英語) ● Pentaho日本正規代理店KSKアナリティクス ● Think IT Pentaho徹底解説 ● 技術的に自由なブログ