SlideShare a Scribd company logo
1 of 18
Download to read offline
ETL Big Data dengan Apache Hadoop
syafrizaladi 24/06/2015
Beberapa tahun terakhir sektor organisasi publik dan pribadi membuat
keputusan strategis untuk mengubah Big Data menjadi data yang mempunyai
nilai, tantangan dalam penggalian nilai dari Big Data adalah
mentransformasikan data dari data mentah menjadi Informasi yang berguna
untuk kebutuhan dan tujuan Analisa Bisnis, proses ini dikenal sebagai Extract,
Transform & Load (ETL).
PROSES ETL
Sumber : Intel Hadoop
it was six men of Hindustan To learning much inclined,
Who went to see the Elephant (Though all of them were blind),
That each by observation Might satisfy his mind.
john godfrey saxe (1872)
QUOTES
Apache Hadoop untuk Big Data
Apache Hadoop
Apache Hadoop adalah software bebas dan open source, yang ditulis dalam kerangka bahasa
pemrograman Java untuk dijalankan secara terdistribusi dan skalabel. yang memungkinkan menjalankan
tugas komputasi intensif dalam mengolah data jumlah besar (Big Data, sekitar petabyte keatas) di
komputer cluster.
Pusat skalabilitas Apache Hadoop adalah MapReduce dibuat untuk memudahkan programmer
memecahkan masalah paralel data, yang berfungsi untuk memecah data set menjadi bagian yang lebih
kecil dan dapat di proses secara independen.
MapRecude membagi input data-set menjadi beberapa potongan data, masing-masing ditugaskan
sebagai map task yang dapat memproses data secara paralel. Setiap map task membaca input sebagai
satu set (kunci, nilai) data dan menghasilkan satu set transformasi (key, value) data sebagai output.
MapReduce menggunakan mekanisme JobTracker dan TaskTracker untuk menjadwalkan task, memantau
mereka, dan merestart proses apapun yang gagal.
Platform Apache Hadoop juga mencakup Hadoop Distributed System (HDFS), yang dirancang untuk
skalabilitas dan faulttolerance dala Berkas data.HDFS menyimpan file besar dengan membagi mereka ke
dalam blok (biasanya 64 atau 128 MB) dan mereplikasi blok pada tiga atau lebih server. HDFS
menyediakan API untuk aplikasi MapReduce untuk membaca dan menulis data secara paralel. Kapasitas
dan kinerja dapat ditingkatkan dengan menambahkan Data Node, dan mekanisme NameNode tunggal
mengelola data ketersediaan server penempatan dan monitor. HDFS Cluster saat ini mampu memproses
Petabytes data dalam ribuan node.
ARSITEKTUR HADOOP - ARSITEKTUR LOGIK
Sumber : Intel Hadoop
ARSITEKTUR HADOOP - ALIRAN PROSES
Split 0
Split 1
Sumber : Intel Hadoop
ARSITEKTUR HADOOP - ARSITEKTUR FISIK
Sumber : Intel Hadoop
Apache Flume Adalah sistem terdistribusi untuk mengumpulkan, menggabungkan,
dan menggerakan data dalam jumlah besar dari berbagai sumber dalam HDFS atau
menyimpan data pusat lainnya. Enterprise biasanya mengumpulkan file log dalam
server aplikasi atau dalam sistem lain dan arsip file log untuk mematuhi aturan.
Mampu untuk menelan dan menganalisis data tidak terstruktur atau semi-terstruktur
Hadoop dapat mengubah sumber data pasif menjadi aset yang berharga.
Hive Merupakan bahasa pemrograman yang menyederhanakan pengembangan
aplikasi menggunakan MapReduce Framework. HiveQL adalah bahasa SQL dan
mendukung subset dari sintaks. Meskipun lambat, Hive sedang aktif dikembangkan
oleh komunitas pengembang untuk mengaktifkan query-latency rendah pada Apache
HBase * dan HDFS. Pig Latin adalah bahasa pemrograman prosedural yang
menyediakan abstraksi tingkat tinggi untuk MapReduce. Anda dapat memperpanjang
dengan Penggunaan Fungsi didefinisikan oleh user ditulis di Java, Python, dan bahasa
lainnya.
KOMPONEN HADOOP
KOMPONEN HADOOP
Sqoop adalah alat untuk mentransfer data antara Hadoop dan database relasional.
Anda dapat menggunakan Sqoop untuk mengimpor data dari MySQL atau database
Oracle ke HDFS, berjalan MapReduce pada data, dan kemudian mengekspor data
kembali ke RDBMS. mengotomatiskan Sqoop proses ini, menggunakan MapReduce
untuk mengimpor dan mengekspor data secara paralel dengan toleransi kesalahan.
Untuk HBase dan Hive adalah komponen berbayar termasuk dalam distribusi
perangkat lunak Hadoop, Mereka menyediakan konektivitas dengan aplikasi SQL
dengan menerjemahkan standar Query SQL ke perintah HiveQL yang dapat dieksekusi
pada data di HDFS atau HBase.
ODBC/JDBC
Connectors
ETL, ELT, ETLT dengan Apache Hadoop
TIGA FUNGSI ETL
Ekstrak data dari berbagai sumber data seperti Aplikasi ERP atau CRM1
Selama langkah ekstrak data, Anda mungkin perlu untuk mengumpulkan data dari beberapa sumber
sistem dan dalam berbagai format file, seperti file datar dengan pembatas (CSV) dan file XML. Anda
juga mungkin perlu untuk mengumpulkan data dari sistem yang menyimpan data dalam format
misterius tidak ada orang lain menggunakan lagi. Ini terdengar mudah, namun sebenarnya dapat
menjadi salah satu kendala utama dalam mendapatkan solusi ETL dalam pengaplikasiannya.
2 Mengubah data ke dalam format umum yang cocok dengan data pada Data Warehouse
Langkah Transformasi termasuk beberapa data yang dimanipulasi, seperti menggerakan, membelah,
menerjemahkan, menggabungan, memilah, memutar, dan banyak lagi. Sebagai contoh, nama
pelanggan mungkin dibagi menjadi nama pertama dan terakhir, atau tanggal mungkin berubah
dengan standar Format ISO (misalnya, dari 07-24-13 untuk 2013/07/24). Seringkali langkah ini juga
melibatkan validasi data terhadap aturan kualitas data.
Load Data ke dalam Data Warehouse untuk Kebutuhan Analisa3
Langkah ini bisa dilakukan dalam proses batch atau baris demi baris, kurang lebih secara real time.
Sebelum ETL ada, satu-satunya cara untuk mengintegrasikan data dari berbagai sumber data yang berbeda adalah
menggunakan script dalam bahasa pemograman seperti COBOL, RPG, dan PL/SQL. Meskipun kuno tampaknya, 45
persen dari semua pekerjaan ETL saat ini terselesaikan menggunakan cara tersebut. Meskipun cara tersebut rawan
kesalahan, lambat untuk dikembangkan, dan susah untuk pelihara, mereka memiliki pengguna setia yang tampaknya
kebal terhadap pesona alat ETL, seperti Oracle Warehouse Builder.
Sebuah arsitektur ETL tradisional mengakomodasi beberapa iterasi ETL, dilakukan di area Staging, yang mendapatkan
data dari sumber sistem secepat mungkin. Sebuah area staging dapat menggunakan database atau sekadar file CSV,
yang membuat proses lebih cepat dari memasukkan data ke dalam tabel database. tambahan Iterasi ETL dapat di
implementasikan untuk mentransfer data dari Enterprise Data Warehouse dalam Data Mart, yang mendukung tujuan
analisis tertentu dan alat untuk pengguna.
Perubahan dalam data warehousing selama dua dekade terakhir. Database telah menjadi jauh lebih kuat. mesin
RDBMS sekarang mendukung transformasi kompleks SQL, termasuk di database data mining, di validasi database dan
kualitas data, pembersihan, profiling, algoritma statistik, fungsi hirarkis dan drill-down, dan lebih banyak. Hal ini telah
menjadi lebih efisien untuk melakukan sebagian besar jenis "Transformasi" dalam mesin RDBMS.
ELT muncul sebagai pendekatan alternatif dimana data diekstrak dari berbagai sumber, dimuat ke dalam target
database, dan kemudian diubah dan diintegrasikan ke dalam format yang diinginkan. Semua data yang berat
pengolahan berlangsung di dalam target database. Keuntungan dari pendekatan ini adalah bahwa sistem database
lebih cocok untuk penanganan beban kerja besar dimana ratusan juta catatan perlu diintegrasikan. Mesin RDBMS
juga dioptimalkan untuk disk I/O, meningkatkan throughput. Dan, selama hardware RDBMS dinaikan skala kinerja
sistemnya.
Staging
Area Data
Mart
Sumber : Intel Hadoop
PROSES TRADISIONAL ETL
KEUNTUNGAN TRADISIONAL ETLT
Memproses data dalam jumlah besar tanpa menentukan Skema1
Karakteristik utama dari Hadoop disebut "No Shcema on Write" yang berarti Anda tidak perlu pra-definisikan
skema data sebelum pemuatan data ke Hadoop. Hal ini berlaku tidak hanya untuk Data terstruktur (seperti
transaksi point-of-sale, panggilan detail catatan, transaksi buku besar, dan transaksi call centre), tetapi juga untuk
data yang tidak terstruktur (seperti komentar pengguna, catatan dokter, deskripsi mengklaim asuransi , dan web
log) dan data media sosial (dari situs seperti Facebook, LinkedIn, Pinterest, dan Twitter). tanpa memperhatikan
apakah data yang masuk Anda memiliki struktur eksplisit atau implisit, Anda dapat dengan cepat memuat data ke
dalam Hadoop, dimana tersedia untuk proses analisa.
2 Offload transformasi data mentah oleh Pemrosesan Data Paralel
Setelah data berada di Hadoop (pada sistem file Hadoop-kompatibel), Anda dapat melakukan tugas-tugas
tradisional ETL seperti pembersihan tugas, normalisasi, menyelaraskan, dan menggabungkan data untuk
Enterprise Data Warehouse Anda dengan mempekerjakan skalabilitas besar MapReduce.
Hadoop memungkinkan Anda untuk menghindari hambatan transformasi data pada ETLT tradisional dengan
mengkonsumsi off-loading, transformasi, dan integrasi data tidak terstruktur ke dalam Data Warehouse Anda.
Karena Hadoop memungkinkan Anda untuk merangkul tipe data lebih dari sebelumnya, memperkaya Data
Warehouse Anda dengan cara yang sebaliknya menjadi tidak layak atau mahal. Karena kinerja terukur, Anda
dapat secara signifikan mempercepat pekerjaan ETLT. Selain itu, karena data yang disimpan dalam Hadoop dapat
bertahan lebih lama, Anda dapat memberikan rincian data melalui EDW Anda untuk Analisa high-fidelity.
HADOOP ETL OFFLOAD
Sumber : Intel Hadoop
KESIMPULAN
Gelombang terbaru dari Trend Big Data adalah menghasilkan peluang baru dan tantangan
baru untuk bisnis pada setiap industri. tantangan data integrasi, menggabungkan data dari
media sosial dan lainnya dan data tidak terstruktur ke dalam lingkungan tradisional BI
adalah salah satu masalah yang paling mendesak yang dihadapi CIO dan Manajer IT.
Apache Hadoop memberikan Solusi platform hemat biaya dan terukur untuk memproses
Big Data dan mempersiapkannya untuk di analisis. Menggunakan Hadoop untuk Proses
ETL offload tradisional dapat mengurangi waktu dalam menganalisa Data baik jam atau
bahkan berhari-hari. Menjalankan cluster Hadoop berarti efisien & optimal dalam
infrastruktur server, storage, jaringan, dan perangkat lunak.
THANK YOU

More Related Content

What's hot

Tugas[4] 0317-[tryanita]-[1411511676]
Tugas[4]  0317-[tryanita]-[1411511676]Tugas[4]  0317-[tryanita]-[1411511676]
Tugas[4] 0317-[tryanita]-[1411511676]trya nita
 
Arsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data WarehouseArsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data Warehousededidarwis
 
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...Tisa Widyastuti
 
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...Cilin christianto
 
Tugas 4 0317-imelda felicia-1412510545
Tugas 4 0317-imelda felicia-1412510545Tugas 4 0317-imelda felicia-1412510545
Tugas 4 0317-imelda felicia-1412510545imeldafelicia
 
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...Fitria Nanda
 
Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 - Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 - fahreza yozi
 
Tantangan n solusi real time DWh
Tantangan n solusi real time DWhTantangan n solusi real time DWh
Tantangan n solusi real time DWhayick19
 
Oracle-Pengenalan Oracle
Oracle-Pengenalan OracleOracle-Pengenalan Oracle
Oracle-Pengenalan Oracleidnats
 
Tugas4 1412510602 dewi_apriliani
Tugas4 1412510602 dewi_aprilianiTugas4 1412510602 dewi_apriliani
Tugas4 1412510602 dewi_aprilianidewiapril1996
 
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...roriepermony
 
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...Sandy Setiawan
 
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...Sandy Setiawan
 
Presentasi Data warehouse
Presentasi Data warehousePresentasi Data warehouse
Presentasi Data warehouseNety Herawati
 
Tugas ii 0317_arie firmandani_1512510445
Tugas ii  0317_arie firmandani_1512510445Tugas ii  0317_arie firmandani_1512510445
Tugas ii 0317_arie firmandani_1512510445Arie Firmandani
 

What's hot (20)

Tugas[4] 0317-[tryanita]-[1411511676]
Tugas[4]  0317-[tryanita]-[1411511676]Tugas[4]  0317-[tryanita]-[1411511676]
Tugas[4] 0317-[tryanita]-[1411511676]
 
Arsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data WarehouseArsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data Warehouse
 
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
Sim, tisa widyastuti, hapzi ali, sistem manajemen database, universitas mercu...
 
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...
Si & Pi, cilin christianto, hapzi ali, database management sistem dalam kegia...
 
Tugas 4 0317-imelda felicia-1412510545
Tugas 4 0317-imelda felicia-1412510545Tugas 4 0317-imelda felicia-1412510545
Tugas 4 0317-imelda felicia-1412510545
 
ETL
ETLETL
ETL
 
D wh pentol
D wh pentolD wh pentol
D wh pentol
 
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
5. SI-PI, Fitria Dwinanda, Hapzi Ali, DASAR-DASAR INTELEGENSI BISNIS: BASIS D...
 
Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 - Tugas 4 0317-fahreza yozi-1612510832 -
Tugas 4 0317-fahreza yozi-1612510832 -
 
Tantangan n solusi real time DWh
Tantangan n solusi real time DWhTantangan n solusi real time DWh
Tantangan n solusi real time DWh
 
ERP
ERPERP
ERP
 
Oracle-Pengenalan Oracle
Oracle-Pengenalan OracleOracle-Pengenalan Oracle
Oracle-Pengenalan Oracle
 
Chapter 7
Chapter 7Chapter 7
Chapter 7
 
Basis data (_database_)
Basis data (_database_)Basis data (_database_)
Basis data (_database_)
 
Tugas4 1412510602 dewi_apriliani
Tugas4 1412510602 dewi_aprilianiTugas4 1412510602 dewi_apriliani
Tugas4 1412510602 dewi_apriliani
 
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...
Tugas sim, rorie permony suci, yananto mihadi putra, se, m.si, sistem manajem...
 
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...
6. SI-PI, Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Bu...
 
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...
SI-PI,Sandy Setiawan, Hapzi Ali, Intelegensi Bisnis, Universitas Mercu Buana,...
 
Presentasi Data warehouse
Presentasi Data warehousePresentasi Data warehouse
Presentasi Data warehouse
 
Tugas ii 0317_arie firmandani_1512510445
Tugas ii  0317_arie firmandani_1512510445Tugas ii  0317_arie firmandani_1512510445
Tugas ii 0317_arie firmandani_1512510445
 

Similar to ETL Big Data dengan Apache Hadoop

Materi 4 Munti Parsi Holan.pptx
Materi 4 Munti Parsi Holan.pptxMateri 4 Munti Parsi Holan.pptx
Materi 4 Munti Parsi Holan.pptxMuntiHolanBokenka
 
Tugaswarehosdio2003
Tugaswarehosdio2003Tugaswarehosdio2003
Tugaswarehosdio2003Lavarino Dio
 
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...kairunnisa
 
BigData - UTS BigData - UTS BigData - UTS
BigData - UTS BigData - UTS BigData - UTSBigData - UTS BigData - UTS BigData - UTS
BigData - UTS BigData - UTS BigData - UTSstrongpapazola1
 
Terminologi data warehouse
Terminologi data warehouseTerminologi data warehouse
Terminologi data warehouseZona Computer
 
Technology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptxTechnology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptxAgusNugraha39
 
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...Puji Astuti
 
30914906 pengertian-database
30914906 pengertian-database30914906 pengertian-database
30914906 pengertian-databaseTri Atsumori
 
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...Google
 
Data and Business Intelligent (1).pptx
Data and Business Intelligent  (1).pptxData and Business Intelligent  (1).pptx
Data and Business Intelligent (1).pptxantoniusivan6
 
Membangun platform big data
Membangun platform big data Membangun platform big data
Membangun platform big data Okta Jilid II
 
Database dan manajemen database
Database dan manajemen databaseDatabase dan manajemen database
Database dan manajemen databaseSigit Sanjaya
 
Basic understanding of database ( INDONESIAN )
Basic understanding of database ( INDONESIAN )Basic understanding of database ( INDONESIAN )
Basic understanding of database ( INDONESIAN )k4ira
 
Pertemuan 11
Pertemuan 11Pertemuan 11
Pertemuan 11Mrirfan
 
tugas mata kuliah sistem teknologi informasi,,,tentang basis data
tugas mata kuliah sistem teknologi informasi,,,tentang basis data tugas mata kuliah sistem teknologi informasi,,,tentang basis data
tugas mata kuliah sistem teknologi informasi,,,tentang basis data Julmianti
 
Pemanfaatan Big Data dengan Hadoop
Pemanfaatan Big Data dengan HadoopPemanfaatan Big Data dengan Hadoop
Pemanfaatan Big Data dengan Hadoophelda_drmsyptr
 

Similar to ETL Big Data dengan Apache Hadoop (20)

Materi 4 Munti Parsi Holan.pptx
Materi 4 Munti Parsi Holan.pptxMateri 4 Munti Parsi Holan.pptx
Materi 4 Munti Parsi Holan.pptx
 
Modul Data Warehouse
Modul Data Warehouse  Modul Data Warehouse
Modul Data Warehouse
 
Tugaswarehosdio2003
Tugaswarehosdio2003Tugaswarehosdio2003
Tugaswarehosdio2003
 
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...
Sim, nur kairunnisa, prof. dr. hapzi ali, cma, sistem manajemen database, uni...
 
kelompok.pptx
kelompok.pptxkelompok.pptx
kelompok.pptx
 
BigData - UTS BigData - UTS BigData - UTS
BigData - UTS BigData - UTS BigData - UTSBigData - UTS BigData - UTS BigData - UTS
BigData - UTS BigData - UTS BigData - UTS
 
MIK4237-01.pdf
MIK4237-01.pdfMIK4237-01.pdf
MIK4237-01.pdf
 
Terminologi data warehouse
Terminologi data warehouseTerminologi data warehouse
Terminologi data warehouse
 
Technology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptxTechnology Consulting _ by Slidesgo.pptx
Technology Consulting _ by Slidesgo.pptx
 
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...
SIM, Puji Astuti, Hapzi Ali, Sistem Informasi dan Database, Universitas Mercu...
 
30914906 pengertian-database
30914906 pengertian-database30914906 pengertian-database
30914906 pengertian-database
 
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
SIM, Angga Ali Praja, Prof. Dr. Ir. Hapzi Ali, MM, CMA, Sistem Manajemen Data...
 
Data and Business Intelligent (1).pptx
Data and Business Intelligent  (1).pptxData and Business Intelligent  (1).pptx
Data and Business Intelligent (1).pptx
 
Membangun platform big data
Membangun platform big data Membangun platform big data
Membangun platform big data
 
Database dan manajemen database
Database dan manajemen databaseDatabase dan manajemen database
Database dan manajemen database
 
Basic understanding of database ( INDONESIAN )
Basic understanding of database ( INDONESIAN )Basic understanding of database ( INDONESIAN )
Basic understanding of database ( INDONESIAN )
 
Pertemuan 11
Pertemuan 11Pertemuan 11
Pertemuan 11
 
tugas mata kuliah sistem teknologi informasi,,,tentang basis data
tugas mata kuliah sistem teknologi informasi,,,tentang basis data tugas mata kuliah sistem teknologi informasi,,,tentang basis data
tugas mata kuliah sistem teknologi informasi,,,tentang basis data
 
Pemanfaatan Big Data dengan Hadoop
Pemanfaatan Big Data dengan HadoopPemanfaatan Big Data dengan Hadoop
Pemanfaatan Big Data dengan Hadoop
 
5
55
5
 

More from Syafrizal Adi

The Pragmatic Programmer - Book Review
The Pragmatic Programmer - Book ReviewThe Pragmatic Programmer - Book Review
The Pragmatic Programmer - Book ReviewSyafrizal Adi
 
People Centric Agility
People Centric AgilityPeople Centric Agility
People Centric AgilitySyafrizal Adi
 
5 Growth Hacking Metrics
5 Growth Hacking Metrics5 Growth Hacking Metrics
5 Growth Hacking MetricsSyafrizal Adi
 
Business Intelligence Consumerization
Business Intelligence ConsumerizationBusiness Intelligence Consumerization
Business Intelligence ConsumerizationSyafrizal Adi
 
23 Step to Create Research Project
23 Step to Create Research Project23 Step to Create Research Project
23 Step to Create Research ProjectSyafrizal Adi
 

More from Syafrizal Adi (6)

The Pragmatic Programmer - Book Review
The Pragmatic Programmer - Book ReviewThe Pragmatic Programmer - Book Review
The Pragmatic Programmer - Book Review
 
People Centric Agility
People Centric AgilityPeople Centric Agility
People Centric Agility
 
Pitch Deck
Pitch DeckPitch Deck
Pitch Deck
 
5 Growth Hacking Metrics
5 Growth Hacking Metrics5 Growth Hacking Metrics
5 Growth Hacking Metrics
 
Business Intelligence Consumerization
Business Intelligence ConsumerizationBusiness Intelligence Consumerization
Business Intelligence Consumerization
 
23 Step to Create Research Project
23 Step to Create Research Project23 Step to Create Research Project
23 Step to Create Research Project
 

Recently uploaded

15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdfTaufikTito
 
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MAMateri Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MAmasqiqu340
 
materi konsep dan Model TRIASE Bencana.pptx
materi konsep dan Model TRIASE Bencana.pptxmateri konsep dan Model TRIASE Bencana.pptx
materi konsep dan Model TRIASE Bencana.pptxZullaiqahNurhali2
 
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppTPERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppTYudaPerwira5
 
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdfAlur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdfPemdes Wonoyoso
 
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIFPPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIFFPMJ604FIKRIRIANDRA
 
Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfjeffrisovana999
 
contoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjanacontoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjanaNhasrul
 
Hasil wawancara usaha lumpia basah tugas PKWU
Hasil wawancara usaha lumpia basah tugas PKWUHasil wawancara usaha lumpia basah tugas PKWU
Hasil wawancara usaha lumpia basah tugas PKWUDina396887
 
undang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogorundang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogorritch4
 
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCCPERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCCabairfan24
 
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).pptSIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).pptEndangNingsih7
 
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptxAbidinMaulana
 
Salinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa IndonesiaSalinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa Indonesiasdn4mangkujayan
 
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdshKISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdshDosenBernard
 
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerjaContoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerjaIniiiHeru
 
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.pptKeracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.pptDIGGIVIO2
 
Diac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponenDiac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponenBangMahar
 

Recently uploaded (20)

Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotecAbortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotec
 
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
 
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MAMateri Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
 
materi konsep dan Model TRIASE Bencana.pptx
materi konsep dan Model TRIASE Bencana.pptxmateri konsep dan Model TRIASE Bencana.pptx
materi konsep dan Model TRIASE Bencana.pptx
 
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppTPERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
 
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdfAlur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
 
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
 
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIFPPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
 
Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdf
 
contoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjanacontoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjana
 
Hasil wawancara usaha lumpia basah tugas PKWU
Hasil wawancara usaha lumpia basah tugas PKWUHasil wawancara usaha lumpia basah tugas PKWU
Hasil wawancara usaha lumpia basah tugas PKWU
 
undang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogorundang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogor
 
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCCPERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
 
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).pptSIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
 
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
 
Salinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa IndonesiaSalinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa Indonesia
 
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdshKISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
KISI-KISI USEK PJOK TA 2023-2024 anans ajaja jaja hdsh
 
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerjaContoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
 
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.pptKeracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
 
Diac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponenDiac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponen
 

ETL Big Data dengan Apache Hadoop

  • 1. ETL Big Data dengan Apache Hadoop syafrizaladi 24/06/2015
  • 2. Beberapa tahun terakhir sektor organisasi publik dan pribadi membuat keputusan strategis untuk mengubah Big Data menjadi data yang mempunyai nilai, tantangan dalam penggalian nilai dari Big Data adalah mentransformasikan data dari data mentah menjadi Informasi yang berguna untuk kebutuhan dan tujuan Analisa Bisnis, proses ini dikenal sebagai Extract, Transform & Load (ETL).
  • 3. PROSES ETL Sumber : Intel Hadoop
  • 4. it was six men of Hindustan To learning much inclined, Who went to see the Elephant (Though all of them were blind), That each by observation Might satisfy his mind. john godfrey saxe (1872) QUOTES
  • 6. Apache Hadoop Apache Hadoop adalah software bebas dan open source, yang ditulis dalam kerangka bahasa pemrograman Java untuk dijalankan secara terdistribusi dan skalabel. yang memungkinkan menjalankan tugas komputasi intensif dalam mengolah data jumlah besar (Big Data, sekitar petabyte keatas) di komputer cluster. Pusat skalabilitas Apache Hadoop adalah MapReduce dibuat untuk memudahkan programmer memecahkan masalah paralel data, yang berfungsi untuk memecah data set menjadi bagian yang lebih kecil dan dapat di proses secara independen. MapRecude membagi input data-set menjadi beberapa potongan data, masing-masing ditugaskan sebagai map task yang dapat memproses data secara paralel. Setiap map task membaca input sebagai satu set (kunci, nilai) data dan menghasilkan satu set transformasi (key, value) data sebagai output. MapReduce menggunakan mekanisme JobTracker dan TaskTracker untuk menjadwalkan task, memantau mereka, dan merestart proses apapun yang gagal. Platform Apache Hadoop juga mencakup Hadoop Distributed System (HDFS), yang dirancang untuk skalabilitas dan faulttolerance dala Berkas data.HDFS menyimpan file besar dengan membagi mereka ke dalam blok (biasanya 64 atau 128 MB) dan mereplikasi blok pada tiga atau lebih server. HDFS menyediakan API untuk aplikasi MapReduce untuk membaca dan menulis data secara paralel. Kapasitas dan kinerja dapat ditingkatkan dengan menambahkan Data Node, dan mekanisme NameNode tunggal mengelola data ketersediaan server penempatan dan monitor. HDFS Cluster saat ini mampu memproses Petabytes data dalam ribuan node.
  • 7. ARSITEKTUR HADOOP - ARSITEKTUR LOGIK Sumber : Intel Hadoop
  • 8. ARSITEKTUR HADOOP - ALIRAN PROSES Split 0 Split 1 Sumber : Intel Hadoop
  • 9. ARSITEKTUR HADOOP - ARSITEKTUR FISIK Sumber : Intel Hadoop
  • 10. Apache Flume Adalah sistem terdistribusi untuk mengumpulkan, menggabungkan, dan menggerakan data dalam jumlah besar dari berbagai sumber dalam HDFS atau menyimpan data pusat lainnya. Enterprise biasanya mengumpulkan file log dalam server aplikasi atau dalam sistem lain dan arsip file log untuk mematuhi aturan. Mampu untuk menelan dan menganalisis data tidak terstruktur atau semi-terstruktur Hadoop dapat mengubah sumber data pasif menjadi aset yang berharga. Hive Merupakan bahasa pemrograman yang menyederhanakan pengembangan aplikasi menggunakan MapReduce Framework. HiveQL adalah bahasa SQL dan mendukung subset dari sintaks. Meskipun lambat, Hive sedang aktif dikembangkan oleh komunitas pengembang untuk mengaktifkan query-latency rendah pada Apache HBase * dan HDFS. Pig Latin adalah bahasa pemrograman prosedural yang menyediakan abstraksi tingkat tinggi untuk MapReduce. Anda dapat memperpanjang dengan Penggunaan Fungsi didefinisikan oleh user ditulis di Java, Python, dan bahasa lainnya. KOMPONEN HADOOP
  • 11. KOMPONEN HADOOP Sqoop adalah alat untuk mentransfer data antara Hadoop dan database relasional. Anda dapat menggunakan Sqoop untuk mengimpor data dari MySQL atau database Oracle ke HDFS, berjalan MapReduce pada data, dan kemudian mengekspor data kembali ke RDBMS. mengotomatiskan Sqoop proses ini, menggunakan MapReduce untuk mengimpor dan mengekspor data secara paralel dengan toleransi kesalahan. Untuk HBase dan Hive adalah komponen berbayar termasuk dalam distribusi perangkat lunak Hadoop, Mereka menyediakan konektivitas dengan aplikasi SQL dengan menerjemahkan standar Query SQL ke perintah HiveQL yang dapat dieksekusi pada data di HDFS atau HBase. ODBC/JDBC Connectors
  • 12. ETL, ELT, ETLT dengan Apache Hadoop
  • 13. TIGA FUNGSI ETL Ekstrak data dari berbagai sumber data seperti Aplikasi ERP atau CRM1 Selama langkah ekstrak data, Anda mungkin perlu untuk mengumpulkan data dari beberapa sumber sistem dan dalam berbagai format file, seperti file datar dengan pembatas (CSV) dan file XML. Anda juga mungkin perlu untuk mengumpulkan data dari sistem yang menyimpan data dalam format misterius tidak ada orang lain menggunakan lagi. Ini terdengar mudah, namun sebenarnya dapat menjadi salah satu kendala utama dalam mendapatkan solusi ETL dalam pengaplikasiannya. 2 Mengubah data ke dalam format umum yang cocok dengan data pada Data Warehouse Langkah Transformasi termasuk beberapa data yang dimanipulasi, seperti menggerakan, membelah, menerjemahkan, menggabungan, memilah, memutar, dan banyak lagi. Sebagai contoh, nama pelanggan mungkin dibagi menjadi nama pertama dan terakhir, atau tanggal mungkin berubah dengan standar Format ISO (misalnya, dari 07-24-13 untuk 2013/07/24). Seringkali langkah ini juga melibatkan validasi data terhadap aturan kualitas data. Load Data ke dalam Data Warehouse untuk Kebutuhan Analisa3 Langkah ini bisa dilakukan dalam proses batch atau baris demi baris, kurang lebih secara real time.
  • 14. Sebelum ETL ada, satu-satunya cara untuk mengintegrasikan data dari berbagai sumber data yang berbeda adalah menggunakan script dalam bahasa pemograman seperti COBOL, RPG, dan PL/SQL. Meskipun kuno tampaknya, 45 persen dari semua pekerjaan ETL saat ini terselesaikan menggunakan cara tersebut. Meskipun cara tersebut rawan kesalahan, lambat untuk dikembangkan, dan susah untuk pelihara, mereka memiliki pengguna setia yang tampaknya kebal terhadap pesona alat ETL, seperti Oracle Warehouse Builder. Sebuah arsitektur ETL tradisional mengakomodasi beberapa iterasi ETL, dilakukan di area Staging, yang mendapatkan data dari sumber sistem secepat mungkin. Sebuah area staging dapat menggunakan database atau sekadar file CSV, yang membuat proses lebih cepat dari memasukkan data ke dalam tabel database. tambahan Iterasi ETL dapat di implementasikan untuk mentransfer data dari Enterprise Data Warehouse dalam Data Mart, yang mendukung tujuan analisis tertentu dan alat untuk pengguna. Perubahan dalam data warehousing selama dua dekade terakhir. Database telah menjadi jauh lebih kuat. mesin RDBMS sekarang mendukung transformasi kompleks SQL, termasuk di database data mining, di validasi database dan kualitas data, pembersihan, profiling, algoritma statistik, fungsi hirarkis dan drill-down, dan lebih banyak. Hal ini telah menjadi lebih efisien untuk melakukan sebagian besar jenis "Transformasi" dalam mesin RDBMS. ELT muncul sebagai pendekatan alternatif dimana data diekstrak dari berbagai sumber, dimuat ke dalam target database, dan kemudian diubah dan diintegrasikan ke dalam format yang diinginkan. Semua data yang berat pengolahan berlangsung di dalam target database. Keuntungan dari pendekatan ini adalah bahwa sistem database lebih cocok untuk penanganan beban kerja besar dimana ratusan juta catatan perlu diintegrasikan. Mesin RDBMS juga dioptimalkan untuk disk I/O, meningkatkan throughput. Dan, selama hardware RDBMS dinaikan skala kinerja sistemnya.
  • 15. Staging Area Data Mart Sumber : Intel Hadoop PROSES TRADISIONAL ETL
  • 16. KEUNTUNGAN TRADISIONAL ETLT Memproses data dalam jumlah besar tanpa menentukan Skema1 Karakteristik utama dari Hadoop disebut "No Shcema on Write" yang berarti Anda tidak perlu pra-definisikan skema data sebelum pemuatan data ke Hadoop. Hal ini berlaku tidak hanya untuk Data terstruktur (seperti transaksi point-of-sale, panggilan detail catatan, transaksi buku besar, dan transaksi call centre), tetapi juga untuk data yang tidak terstruktur (seperti komentar pengguna, catatan dokter, deskripsi mengklaim asuransi , dan web log) dan data media sosial (dari situs seperti Facebook, LinkedIn, Pinterest, dan Twitter). tanpa memperhatikan apakah data yang masuk Anda memiliki struktur eksplisit atau implisit, Anda dapat dengan cepat memuat data ke dalam Hadoop, dimana tersedia untuk proses analisa. 2 Offload transformasi data mentah oleh Pemrosesan Data Paralel Setelah data berada di Hadoop (pada sistem file Hadoop-kompatibel), Anda dapat melakukan tugas-tugas tradisional ETL seperti pembersihan tugas, normalisasi, menyelaraskan, dan menggabungkan data untuk Enterprise Data Warehouse Anda dengan mempekerjakan skalabilitas besar MapReduce. Hadoop memungkinkan Anda untuk menghindari hambatan transformasi data pada ETLT tradisional dengan mengkonsumsi off-loading, transformasi, dan integrasi data tidak terstruktur ke dalam Data Warehouse Anda. Karena Hadoop memungkinkan Anda untuk merangkul tipe data lebih dari sebelumnya, memperkaya Data Warehouse Anda dengan cara yang sebaliknya menjadi tidak layak atau mahal. Karena kinerja terukur, Anda dapat secara signifikan mempercepat pekerjaan ETLT. Selain itu, karena data yang disimpan dalam Hadoop dapat bertahan lebih lama, Anda dapat memberikan rincian data melalui EDW Anda untuk Analisa high-fidelity.
  • 17. HADOOP ETL OFFLOAD Sumber : Intel Hadoop
  • 18. KESIMPULAN Gelombang terbaru dari Trend Big Data adalah menghasilkan peluang baru dan tantangan baru untuk bisnis pada setiap industri. tantangan data integrasi, menggabungkan data dari media sosial dan lainnya dan data tidak terstruktur ke dalam lingkungan tradisional BI adalah salah satu masalah yang paling mendesak yang dihadapi CIO dan Manajer IT. Apache Hadoop memberikan Solusi platform hemat biaya dan terukur untuk memproses Big Data dan mempersiapkannya untuk di analisis. Menggunakan Hadoop untuk Proses ETL offload tradisional dapat mengurangi waktu dalam menganalisa Data baik jam atau bahkan berhari-hari. Menjalankan cluster Hadoop berarti efisien & optimal dalam infrastruktur server, storage, jaringan, dan perangkat lunak. THANK YOU