Tutorial DQS SQL SERVER ( Data Cleansing Data Matching ) [ Kualitas Data, Stikom Surabaya ]
TUTORIAL DQS CLEANSING DAN MATCHING
PROSES PROFILING
- Awal nya kita harus profiling terlebih dahulu, kita klik knowledge base, kemudian kita beri nama knowledge tersebut sesuai kemauan kita. Contoh : AdventureWorks
- Setelah diberi nama, karena data tersebut sudah disiapkan oleh dosen kami, dan sudah dibuat kan dengan rules rules yang telah ditentukan juga, maka kita klik dari create from knowledge base dan pilih import from dqs file . Kemudian browse file dqs yang sudah didownload tadi.
DOWNLOAD DATA FILE EXCEL : https://drive.google.com/file/d/1TcWymmi8OIPfIrOxAqoUgA8-tSz3pqjB/view?usp=sharing - setelah file dipilih, muncul domain domain yang telah dibuat di file tersebut. Kemudian klik next.
- Kemudian kita cek satu persatu domain yang telah terbuat dari file tersebut. Apa saja rule rule nya sehingga ketika cleansing kita bisa mengerti field filed mana yang tidak sesuai dengan rules nya
- Berikut adalah rules rules yang ada di dalam file tersebut :
1. Rules Pada Email Address
2. Rules Pada Email Employee Name
3. Rules pada Gender
4. Rules pada Job Tittle
5. Rules Pada Marital Status
6. Rules pada Tittle
6. Setelah itu klik next, maka source data tadi akan mulai di profiling.
7. Memulai Profiling
7. Setelah itu klik start untuk mulai profiling data
8. Setelah diklik start, maka proses profiling tersebut segera dimulai. Kemudian kita menunggu proses tersebut hingga selesai dan kita lihat hasil dari profiling tersebut.
9. Ini adalah hasil dari proses profiling, kita bisa lihat domain domain mana yang tidak sesuai rules, completeness nya kurang atau ada yang tidak unique atau data yang harus nya berbeda malah sama
8. Hasil dari profilling 1
9. Hasil dari profilling 2
10.Setelah proses ini selesai dan panel bawah muncul hasil dari proses tersebut, kemudian kita klik next lagi
11.Setelah di klik next, kita akan ditampilkan data data apa saja yang sesuai dan tidak sesuai dengan rules. Kita diharus kan untuk mengeceki satu persatu domain yang ada baru bisa mulai ke proses berikut nya.
12.Ini adalah hasil proses, data apa saja yang telah masuk yang sesuai maupun tidak sesuai dengan rules
10. Hasil Profilling Job Tittle
11. Hasil Profilling Email Address
12. Hasil dari profilling di tittle enchement
10.Setelah kita cek satu persatu, maka kita selesaikan proses profiling dengan klik finish.
PROSES CLEANSING
1.Setelah kita profiling, kita beralih proses menjadi cleansing. Yang harus kita lakukan pertama adalah klik new data quality project, dan memilih jenis file apa yang akan kita gunakan, ada sql, csv dan excel. Berhubung data yang kita dapatkan adalah excel, maka kita pilih excel.
2.Kemudian kita browse file mana yang akan kita gunakan, dan kemudan pilih sheet1, karena data berada pada sheet1.
3.Setelah semua nya dipilih, kemudian kita mencocok kan source column dengan domain yang ada di dqs, contoh nya email dengan email, birthdate dengan birthdate, hiredate dengan hiredate, dan domain domain yang lain nya.
4.Setelah sama, kita klik next untuk proses selanjut nya.
5.Sama dengan proses sebelum nya, kita ditampilkan tampilan untuk memulai proses cleansing dengan klik start. Kemudian kita klik start.
6.Setelah klik start. Kita tunggu proses tersebut selesai hingga muncul apa saja yang tidak sesuai dengan rules nya.
2. Hasil Dari Cleansing Data 1
3. Hasil Dari Cleansing Data 2
7.Kemudian kita klik next, dan sama seperti sebelum nya. Kita diwajibkan untuk mengecek satu persatu dan memperbaiki yang salah dan mengapprove kesalahan yang telah kita perbaiki.
8. Ini adalah contoh dimana isi domain tidak sesuai dengan rules dan sudah kita perbaiki sesuai dengan rules nya.
4. Perbaikan sesuai rules nya 1
5 Perbaikan sesuai rules nya 2
6. Perbaikan sesuai rules nya 3
7. Perbaikan sesuai rules nya 4
9.Setelah kita perbaiki semua, kita klik next untuk mengeksport data yang telah kita cleansing. Namun sebelum nya, kita buat file excel yang kosong yang nanti nya akan kita replace dengan data yang kita ekspor tadi. Kita browse file yang telah kita pilih.
10.Setelah memilih file yang akan kita replace. Kita disediakan dua pilihan yaitu data only dan data and cleansing info. Jika memilih data, yang eksport nya hanya keluar tentang data yang sudah bersih. Namun jika memilih data and cleansing info maka kita disediakan info data yang telah kita bersihkan. Contoh nya :
8. Proses Eksport Data
11. Kita pilih data only, dan selanjut nya kita tunggu proses nya hingga selesai dan setelah selesai kita klik finish.
12. Setelah selesai, kita buka file yang sudah ter-replace untuk memastikan bahwa data yang telah di cleansing sudah berhasil.
HASIL DATA CLEANSING : https://drive.google.com/file/d/1wiCFPdE9Gp7aM2AFxX0O6KYqTfnS3YuQ/view?usp=sharing
HASIL DATA CLEANSING : https://drive.google.com/file/d/1wiCFPdE9Gp7aM2AFxX0O6KYqTfnS3YuQ/view?usp=sharing
PROSES MATCHING.
1. Proses yang kita lakukan sama dengan proses cleansing. Hanya saja ketika kita klik new data quality project, di pojok bawah kanan ada pilihan untuk matching. Kita klik itu karena tujuan awal kita adalah untuk matching data, melihat data mana yang terduplikasi.
2. Kata sama kan domain dengan source data yang telah disediakan.
1. Proses awal melakukan data matching
3. Kemudian kita klik next, kita tentukan berapa persen yang akan kita gunakan untuk patokan bahwa data tersebut adalah data terduplikasi, namun karena data kita sudah dipersiapkan dosen kita, maka untuk pengaturan persen dan domain mana yang akan digunakan telah di tentukan. Kita hanya tinggal memproses saja.
2. Menentukan Patokan Duplikasi Data 1
3. Menentukan Patokan Duplikasi Data 2
6. Kemudian kita klik next.
7. Muncul tombol start untuk memulai proses matching. Maka kita klik start.
8. Setelah kita klik start, maka kita tunggu proses nya selesai hingga muncul data mana yang ternyata terduplikasi.
4. Hasil dari matching data
6. Setelah hasil keluar, maka kita klik data mana yang akan kita reject/hapus karena ada data yang double.
7. Setelah di klik, kita klik next untuk mengeskport data tersebut.
8. Setelah di klik next, sama seperti sebelum nya, kita buat file untuk hasil dari matching ini. Dan setelah selesai kita klik eksport.
5. Hasil dari data matching
9. Setelah selesai, kita tunggu proses nya, dan jangan lupa untuk melihat hasil eksport an tadi untuk memastikan data tadi sudah berubah atau tidak.
10. Selanjut nya adalah klik finis. Untuk menunjuk kan bahwa kita sudah selesai melakukan proses matching.
DIBUAT OLEH :
Gusti Adistriani / 16410100115
Komentar
Posting Komentar