Selasa, 25 November 2014

Data Quality

Menurut Mark Mosley (2008) dalam bukunya “Dictionary of Data Management”, pengertian kualitas data adalah level data yang menyatakan data tersebut akurat (accurate), lengkap (complete), timely (update), konsisten (consistent) sesuai dengan semua kebutuhan peraturan bisnis dan relevan.

Data yang berkualitas sangat penting karena dapat :
  • Meningkatkan kepercayaan diri dalam pengambilan keputusan
  • Memperbaiki pelayanan kepada Customer
  • Meningkatkan kesempatan memperbaiki kinerja,
  • Mengurangi resiko dari keputusan yang berbahaya,
  • Mengurangi biaya, terutama untuk pemasaran,
  • Mengembangkan strategi untuk pembuatan keputusan,
  • Meningkatkan produktivitas dengan memangkas beberapa proses
  • Menghindari efek komplikasi dari data yang terkontaminasi

Beberapa indicator data berkualitas :

  1. ACCURACY = data yang tersimpan nilainya benar (name cocok dengan alamatnya)
  2. DOMAIN INTEGRITY = nilai attributnya sesuai batasan yang diperkenankan (nilai attribut laki n perempuan)
  3. DATA TYPE = Nilai data disimpan dalam tipe data yang sesuai (data nama disimpan dengan tipe text)
  4. CONSISTENCY = nilai sebuah field data akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu sama kodenya di setiap berkas lain)
  5. REDUDANCY = tidak boleh ada data yang sama disimpan di tempat yang berbeda dalam satu sistem
  6. COMPLETENESS = Tidak ada nilai atttribut salah yang diberikan dalam sistem
  7. DATA ANOMALY = sebuah field hanya digunakan sesuai kegunaannya. (field address3 รจ digunakan untuk mencatat baris ketiga dalam alamat bukan untuk telp atau fax)
  8. CLARITY = Kejelasan arti kegunaan dan cara penulisan sebuah data (penamaan khusus)
  9. TIMELY = merepresentasikan waktu dari data yang dimasukkan (jika data digunakan perhari maka data pada warehaouse harus juga dibuat per hari)
  10. USEFULNESS = setiap data harus benar digunakan oleh user
  11. ADHERENCE TO DATA INTEGRITY RULES = taat pada aturan keterhubungan data


Keuntungan Data Berkualitas
  • Analisis dengan Informasi Tepat Waktu
  • Customer Service yang lebih baik
  • Peluang baru
  • Biaya berkurang dan Risiko
  • Peningkatan Produktivitas
  • Handal Pengambilan Keputusan Strategis

Data Quality Challenges ( tantangan dalam membuat data berkualitas )
Terdapat beberapa factor yaitu :
  • Data Source :
    • Penuaan Data
    • Kesalahan Inputan
    • Penipuan
    • Sistem Konversi yang salah
  • Validasi Data :
    • Terjadi duplikasi data
    • Beberapa atribut data tercampur dalam field yang sama
    • Ejaan yang berbeda untuk nama yang sama
    • Tidak adanya atribut kunci
  • Dibutuhkan biaya yang besar  untuk menjaga kualitas data, terdapat beberapa cara yaitu :
    • Mengatur data agar selalu berkualitas membutuhkan biaya yang tidak sedikit
    • Membutuhkan orang – orang yang berkompeten untuk me-manage data

Data Quality Tools

Data Auditing

Data Auditing meningkatkan akurasi dan kebenaran data pada sumbernya. Tools ini pada umumnya membandingkan data di database sumber dengan aturan bisnis yang ada.
Bila menggunakan sumber eksternal organisasi, aturan bisnis dapat ditentukan dengan menggunakan teknik data mining untuk menemukan pola dalam data. Data yang tidak mematuhi aturan bisnis kemudian dapat dimodifikasi sesuai kebutuhan.

Data Cleansing

Data Cleansing digunakan dalam staging area. Data Cleansing berguna untuk melakukan standarisasi, dan verifikasi data terhadap data yang tidak dikenali. Beberapa fitur yang terdapat dalam Data Cleansing adalah :
  • Data Parsing : Memecah nilai dalam bentuk yang kecil untuk digunakan pada tahap selanjutnya.
  • Data Standarization : Mengubah elemen – elemen data kedalam bentuk standar.
  • Data Correction and verification : Melakukan pengecekan data terhadap data yang tidak dikenali, terutama pada lokasi atau alamat.
  • Data Transformation : Menjamin konsistensi pemetaan data dari sistem sumber dengan data warehouse.
  • Householding : Menggabungkan individual data yang memiliki kesamaan alamat

Data Migration

Data Migration digunakan untuk mengekstrak data dari sumber untuk dikirim ke staging area dan dari staging area ke data warehouse.

Data Quality Initiattive

Untuk bisa sukses, Data Quality program harus bisa dimulai oleh CEO, didukung oleh jajaran direksi, dan dijalankan oleh manajer yang khusus bertugas mengatur kualitas data.
Untuk menjalankan program ini, terdapat beberapa langkah yang harus dilakukan :
  • Data Stewardship Program : Bertujuan untuk memberikan konsultasi dan bantuan mengenai penanganan data yang berkualitas
  • Mengatur tujuan dan harapan dari program Data Quality
  • Melihat dan mengawasi program Data Quality



Senin, 17 November 2014

Extraction - Transformation - Loading

ETL  merupakan  sebuah  proses  penting  yang merupakan  bagian  dari  Data  Warehouse  yang  berfungsi  untuk  mentransfer  data  yang  ada  pada basisdata  transaksi  kedalam  basisdata  Data Warehouse yang sudah dimodelkan sedemikian rupa berdasarkan  hypercubes  yang  dibentuk  berdasarkan  laporan - laporan  yang  sering  dipakai  manajemen tingkat  atas.

Extraction

Ekstraksi (Extraction) adalah operasi ekstraksi data dari sebuah sistem sumber untuk digunakan lebih jauh dalam lingkungan Data Warehouse. Tahapan ini adalah yang paling pertama dalam proses ETL. Setelah Ekstraksi, data ini akan ditransformasikan dan di-load ke dalam Data Warehouse.

Metode Ekstraksi Secara Umum :

  • Statis, umumnya dilakukan pada saat pemuatan data  awal  dan  dilakukan  pada  saat  sistem OLTP  tidak berjalan.
  • Terjadwal,  ada  2  model  pengambilan  data terjadwal yaitu :
    • Berdasarkan  waktu,  setiap  pengaksesan record  basisdata  OLTP  ditandai  dengan waktu  berupa tanggal dan jam  dan secara terjadwal  sebuah  aplikasi  program  akan dijalankan  untuk  mengakses  Data  Warehouse  berdasarkan  perubahan  waktu  pada basisdata  OLTP.
    • Berdasarkan  perbedaan  berkas  lama  dan baru,  adanya  backup  harian  terhadap basisdata  OLTP,  dan  secara  terjadwal sebuah  aplikasi  program  akan  dijalankan untuk  mengakses  Data  Warehouse  jika sebuah tabel hari ini dan duplikat tabel hari sebelumnya berbeda.
  • Seketika,  ada  3  model  pengambilan  data seketika yaitu :
    • Dengan  mekanisme  log  transaksi,  setiap transaksi  insert,update  dan  delete  terhadap sebuah  record,  maka  basisdata   seketika akan  menulis  pada  log   berkas  yang digunakan  untuk  mem ilih  transaksi  yang telah berhasil dilaksanakan ( Committ).  Logberkas tidak berlaku jika kita menggunakan sistem data yang menggunakan indeks atau berkas teks.
    • Dengan  mekanisme  basis  data  trigger, sama seperti log transaksi pilihan ini hanya untuk  sistem  yang  menggunakan  aplikasi basisdata.  Trigger  adalah  sebuah  program kecil  yang  akan dijalankan  ketika  sebuah event yang telah didefinisikan terjadi.
    • Dengan  sumber  aplikasi,  modifikasi program  aplikasi  OLTP  agar  secara seketika mengakses Data Warehouse  setiap ada  proses  insert,update  dan  delete  pada sebuah  record .
Metode Ekstraksi Fisik (physical extraction)
  • Online Extraction
    • Data diekstrak langsung dari sistem sumber itu sendiri. Proses ekstraksi dapat berhubungan secara langsung dengan sistem sumber untuk mengakses tabel sumber atau ke sebuah sistem perantara yang menyimpan data dengan sebuah cara yang dikonfigurasikan terlebih dahulu (sebagai contoh log atau tabel perubahan). Dengan catatan bahwa sistem perantara secara fisik tidak berbeda dari sistem sumber.
  • Offline Extraction
    • Data tidak diekstrak secara langsung dari sistem sumber namun dibatasi secara eksplisit diluar sistem sumber orisinil. Data telah memiliki struktur atau telah dibuat melalui prosedur ekstraksi.
     Transformasi
      
       Proses  pengambilan  data mentah  yang  belum  bisa  disimpan  pada  Data Warehouse,  oleh  karena  itu  data  harus  sesuai standar  struktur  Data  Warehouse  yang  telah ditentukan  sehingga  bisa  disimpan  ke  Data Warehouse.  Transformation  data  terdiri  dari beberapa tahap yaitu:
  •  Seleksi, men- select record  dari tabel basisdata OLTP, tahap ini merupakan bagian dari proses pengambilan data.
  • Pemisahan  dan  Penggabungan,  manipulasi data yang dibutuhkan untuk men- select record OLTP, yaitu melakukan proses pemisahan dan penggabungan bila dibutuhkan.
  • Konversi,   dilakukan untuk 2 alasan yaitu:
  • Standarisasi  pengambilan  data  dari  berbagai sumber
  • Membuat  field   dapat  digunakan  Data Warehouse  dan dipahami oleh  pengguna
  • Ringkasan, data yang terlalu detail tidak selalu dibutuhkan pada Data Warehouse  oleh karena itu  perlu  diringkas  berdasarkan  kebutuhan Data Warehouse.
  • Pengayaan,  menggunakan  sebuah  atau  beberapa  field   untuk  membuat  hasil  data  yang terbaik  pada  Data  Warehouse ,  prinsip  ini merupakan  pengembangan  dari  kumpulan sebuah atau beberapa  field   dari beragam record yang  menghasilkan  sebuah  field   untuk  Data Warehouse.
       Fungsi Transformasi
  • Revisi Format 
  • Penghilangan  pengkodean  field
  • Menghitung  dan  menghasilkan  nilai
  • Memecah  field
  • Penggabungan informasi
  • Konversi kumpulan karakter
  • Konversi  unit  pengukuran
  • Konversi  tanggal  dan  jam
  • Ikhtisar
  • Restrukturisasi  kunci
  • Deduplikasi
      Loading 
  Merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhiryaitu ke dalam suatu data warehouse
      Terdapat 4 Fase Load yaitu :
  • Panggil, jika data sudah ada pada tabel  Data Warehouse  maka  proses  panggil  ini  akan menghapus  data  yang  sudah  ada  dan menggantinya,  jika  data  belum  ada  maka proses ini akan mengisi tabel Data Warehouse.
  • Tambah, jika data sudah ada pada tabel  Data Warehouse  maka  proses  tambah  ini  akan menambah  data  dan  ada  kemungkinan terdapat duplikat  record  dan jika dikehendaki dimungkinkan duplikat record  ditolak.
  • Destructive  Merge,  jika  kunci  record  yang datang  cocok  dengan  kunci  record  yang  ada maka akan merubah record  yang ada dan jika record  yang datang adalah  record  baru maka akan menambah record   baru.
  • Constructive  Merge,  jika  kunci  record  yang datang  cocok  dengan  kunci  record  yang  ada maka  akan  menambah  record  baru  dan menandai  record  baru  tersebut  sebagai penghubung  ke  record  lama  yang  cocok dengan record   yang akan datang.

ETL Tools yang berbayar:
  • IBM Infosphere DataStage
  • Informatica PowerCenter
  • Oracle Warehouse Builder (OWB)
  • Oracle Data Integrator (ODI)
  • Microsoft SQL Server
ETL tools yang gratis (open source):
  • Pentaho Data Integration (Kettle)
  • Talend Integrator Suite
  • CloverETL
  • Jasper ETL