ETL merupakan
sebuah proses penting
yang merupakan bagian dari
Data Warehouse yang
berfungsi untuk mentransfer
data yang ada
pada basisdata transaksi kedalam
basisdata Data Warehouse yang
sudah dimodelkan sedemikian rupa berdasarkan
hypercubes yang dibentuk
berdasarkan laporan -
laporan yang sering
dipakai manajemen tingkat atas.
Extraction
Ekstraksi
(Extraction) adalah operasi ekstraksi data dari sebuah sistem sumber untuk
digunakan lebih jauh dalam lingkungan Data Warehouse. Tahapan ini adalah yang
paling pertama dalam proses ETL. Setelah Ekstraksi, data ini akan ditransformasikan
dan di-load ke dalam Data Warehouse.
Metode Ekstraksi Secara Umum :
- Statis, umumnya dilakukan pada saat pemuatan data awal dan dilakukan pada saat sistem OLTP tidak berjalan.
- Terjadwal, ada 2 model pengambilan data terjadwal yaitu :
- Berdasarkan waktu, setiap pengaksesan record basisdata OLTP ditandai dengan waktu berupa tanggal dan jam dan secara terjadwal sebuah aplikasi program akan dijalankan untuk mengakses Data Warehouse berdasarkan perubahan waktu pada basisdata OLTP.
- Berdasarkan perbedaan berkas lama dan baru, adanya backup harian terhadap basisdata OLTP, dan secara terjadwal sebuah aplikasi program akan dijalankan untuk mengakses Data Warehouse jika sebuah tabel hari ini dan duplikat tabel hari sebelumnya berbeda.
- Seketika, ada 3 model pengambilan data seketika yaitu :
- Dengan mekanisme log transaksi, setiap transaksi insert,update dan delete terhadap sebuah record, maka basisdata seketika akan menulis pada log berkas yang digunakan untuk mem ilih transaksi yang telah berhasil dilaksanakan ( Committ). Logberkas tidak berlaku jika kita menggunakan sistem data yang menggunakan indeks atau berkas teks.
- Dengan mekanisme basis data trigger, sama seperti log transaksi pilihan ini hanya untuk sistem yang menggunakan aplikasi basisdata. Trigger adalah sebuah program kecil yang akan dijalankan ketika sebuah event yang telah didefinisikan terjadi.
- Dengan sumber aplikasi, modifikasi program aplikasi OLTP agar secara seketika mengakses Data Warehouse setiap ada proses insert,update dan delete pada sebuah record .
Metode Ekstraksi Fisik (physical extraction)
- Online Extraction
- Data diekstrak langsung dari sistem sumber itu sendiri. Proses ekstraksi dapat berhubungan secara langsung dengan sistem sumber untuk mengakses tabel sumber atau ke sebuah sistem perantara yang menyimpan data dengan sebuah cara yang dikonfigurasikan terlebih dahulu (sebagai contoh log atau tabel perubahan). Dengan catatan bahwa sistem perantara secara fisik tidak berbeda dari sistem sumber.
- Offline Extraction
- Data tidak diekstrak secara langsung dari sistem sumber namun dibatasi secara eksplisit diluar sistem sumber orisinil. Data telah memiliki struktur atau telah dibuat melalui prosedur ekstraksi.
Transformasi
Proses pengambilan
data mentah yang belum
bisa disimpan pada
Data Warehouse, oleh karena
itu data harus
sesuai standar struktur Data
Warehouse yang telah ditentukan sehingga
bisa disimpan ke
Data Warehouse.
Transformation data terdiri
dari beberapa tahap yaitu:
- Seleksi, men- select record dari tabel basisdata OLTP, tahap ini merupakan bagian dari proses pengambilan data.
- Pemisahan dan Penggabungan, manipulasi data yang dibutuhkan untuk men- select record OLTP, yaitu melakukan proses pemisahan dan penggabungan bila dibutuhkan.
- Konversi, dilakukan untuk 2 alasan yaitu:
- Standarisasi pengambilan data dari berbagai sumber
- Membuat field dapat digunakan Data Warehouse dan dipahami oleh pengguna
- Ringkasan, data yang terlalu detail tidak selalu dibutuhkan pada Data Warehouse oleh karena itu perlu diringkas berdasarkan kebutuhan Data Warehouse.
- Pengayaan, menggunakan sebuah atau beberapa field untuk membuat hasil data yang terbaik pada Data Warehouse , prinsip ini merupakan pengembangan dari kumpulan sebuah atau beberapa field dari beragam record yang menghasilkan sebuah field untuk Data Warehouse.
Fungsi Transformasi
- Revisi Format
- Penghilangan pengkodean field
- Menghitung dan menghasilkan nilai
- Memecah field
- Penggabungan informasi
- Konversi kumpulan karakter
- Konversi unit pengukuran
- Konversi tanggal dan jam
- Ikhtisar
- Restrukturisasi kunci
- Deduplikasi
Loading
Merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yaitu ke dalam suatu data warehouse
Terdapat 4 Fase Load yaitu :
- Panggil, jika data sudah ada pada tabel Data Warehouse maka proses panggil ini akan menghapus data yang sudah ada dan menggantinya, jika data belum ada maka proses ini akan mengisi tabel Data Warehouse.
- Tambah, jika data sudah ada pada tabel Data Warehouse maka proses tambah ini akan menambah data dan ada kemungkinan terdapat duplikat record dan jika dikehendaki dimungkinkan duplikat record ditolak.
- Destructive Merge, jika kunci record yang datang cocok dengan kunci record yang ada maka akan merubah record yang ada dan jika record yang datang adalah record baru maka akan menambah record baru.
- Constructive Merge, jika kunci record yang datang cocok dengan kunci record yang ada maka akan menambah record baru dan menandai record baru tersebut sebagai penghubung ke record lama yang cocok dengan record yang akan datang.
ETL
Tools yang
berbayar:
- IBM Infosphere DataStage
- Informatica PowerCenter
- Oracle Warehouse Builder (OWB)
- Oracle Data Integrator (ODI)
- Microsoft SQL Server
ETL
tools yang gratis (open source):
- Pentaho Data Integration (Kettle)
- Talend Integrator Suite
- CloverETL
- Jasper ETL
Tidak ada komentar:
Posting Komentar