Menurut Mark Mosley (2008) dalam bukunya “Dictionary of Data
Management”, pengertian kualitas data adalah level data yang menyatakan data
tersebut akurat (accurate), lengkap (complete), timely (update), konsisten
(consistent) sesuai dengan semua kebutuhan peraturan bisnis dan relevan.
Data yang berkualitas sangat penting karena dapat :
- Meningkatkan kepercayaan diri dalam pengambilan keputusan
- Memperbaiki pelayanan kepada Customer
- Meningkatkan kesempatan memperbaiki kinerja,
- Mengurangi resiko dari keputusan yang berbahaya,
- Mengurangi biaya, terutama untuk pemasaran,
- Mengembangkan strategi untuk pembuatan keputusan,
- Meningkatkan produktivitas dengan memangkas beberapa proses
- Menghindari efek komplikasi dari data yang terkontaminasi
Beberapa indicator data berkualitas :
- ACCURACY = data yang tersimpan nilainya benar (name cocok dengan alamatnya)
- DOMAIN INTEGRITY = nilai attributnya sesuai batasan yang diperkenankan (nilai attribut laki n perempuan)
- DATA TYPE = Nilai data disimpan dalam tipe data yang sesuai (data nama disimpan dengan tipe text)
- CONSISTENCY = nilai sebuah field data akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu sama kodenya di setiap berkas lain)
- REDUDANCY = tidak boleh ada data yang sama disimpan di tempat yang berbeda dalam satu sistem
- COMPLETENESS = Tidak ada nilai atttribut salah yang diberikan dalam sistem
- DATA ANOMALY = sebuah field hanya digunakan sesuai kegunaannya. (field address3 รจ digunakan untuk mencatat baris ketiga dalam alamat bukan untuk telp atau fax)
- CLARITY = Kejelasan arti kegunaan dan cara penulisan sebuah data (penamaan khusus)
- TIMELY = merepresentasikan waktu dari data yang dimasukkan (jika data digunakan perhari maka data pada warehaouse harus juga dibuat per hari)
- USEFULNESS = setiap data harus benar digunakan oleh user
- ADHERENCE TO DATA INTEGRITY RULES = taat pada aturan keterhubungan data
Keuntungan Data Berkualitas
- Analisis dengan Informasi Tepat Waktu
- Customer Service yang lebih baik
- Peluang baru
- Biaya berkurang dan Risiko
- Peningkatan Produktivitas
- Handal Pengambilan Keputusan Strategis
Data Quality Challenges ( tantangan dalam membuat data
berkualitas )
Terdapat beberapa factor yaitu :
- Data Source :
- Penuaan Data
- Kesalahan Inputan
- Penipuan
- Sistem Konversi yang salah
- Validasi Data :
- Terjadi duplikasi data
- Beberapa atribut data tercampur dalam field yang sama
- Ejaan yang berbeda untuk nama yang sama
- Tidak adanya atribut kunci
- Dibutuhkan biaya yang besar untuk menjaga kualitas data, terdapat beberapa cara yaitu :
- Mengatur data agar selalu berkualitas membutuhkan biaya yang tidak sedikit
- Membutuhkan orang – orang yang berkompeten untuk me-manage data
Data Quality Tools
Data Auditing
Data Auditing meningkatkan akurasi dan kebenaran data pada
sumbernya. Tools ini pada umumnya membandingkan data di database sumber dengan
aturan bisnis yang ada.
Bila menggunakan sumber eksternal organisasi, aturan bisnis
dapat ditentukan dengan menggunakan teknik data mining untuk menemukan pola
dalam data. Data yang tidak mematuhi aturan bisnis kemudian dapat dimodifikasi
sesuai kebutuhan.
Data Cleansing
Data Cleansing digunakan dalam staging area. Data Cleansing
berguna untuk melakukan standarisasi, dan verifikasi data terhadap data yang
tidak dikenali. Beberapa fitur yang terdapat dalam Data Cleansing adalah :
- Data Parsing : Memecah nilai dalam bentuk yang kecil untuk digunakan pada tahap selanjutnya.
- Data Standarization : Mengubah elemen – elemen data kedalam bentuk standar.
- Data Correction and verification : Melakukan pengecekan data terhadap data yang tidak dikenali, terutama pada lokasi atau alamat.
- Data Transformation : Menjamin konsistensi pemetaan data dari sistem sumber dengan data warehouse.
- Householding : Menggabungkan individual data yang memiliki kesamaan alamat
Data Migration
Data Migration digunakan untuk mengekstrak data dari sumber
untuk dikirim ke staging area dan dari staging area ke data warehouse.
Data Quality Initiattive
Untuk bisa sukses, Data Quality program harus bisa dimulai
oleh CEO, didukung oleh jajaran direksi, dan dijalankan oleh manajer yang
khusus bertugas mengatur kualitas data.
Untuk menjalankan program ini, terdapat beberapa langkah
yang harus dilakukan :
- Data Stewardship Program : Bertujuan untuk memberikan konsultasi dan bantuan mengenai penanganan data yang berkualitas
- Mengatur tujuan dan harapan dari program Data Quality
- Melihat dan mengawasi program Data Quality