Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS!

Belajar Dirumah Bersama DQLab dengan Mengenal Data Cleansing Sebagai Proses Utama Pengolahan Data

Belajar Data Science di Rumah 05-Juni-2020
https://dqlab.id/files/dqlab/cache/b2c475a186d6d47b9d7d52b0482df7ef_x_Thumbnail800.jpeg

Belajar dirumah dan tingkatkan kompetensi datamu bersama DQLab! Seperti yang kita tahu, proses awal dari pengolahan data adalah Data Cleansing. Dengan melewati proses Data Cleansing data-data yang terkumpul dari banyak sumber akan dipilih dan dibersihkan agar data yang terkumpul sesuai dengan kebutuhan perusahaan.

DQLab ingin berbagi kepada rekan-rekan DQLab mengenai kasus apa saja yang biasa dihadapi dalam proses Data Cleansing. Diantaranya adalah Standarisasi data, Missing Value dan juga Deduplikasi data.

Kita simak bersama yuk masing-masing penjelasannya!

1. Data Cleansing Itu Penting Nggak Sih?

Data Cleansingadalah sebuah proses penyortiran data mentah menjadi data yang siap digunakan untuk pengambilan insight. Langkah yang digunakan adalah dengan mendeteksi adalanya corrupt atau error pada data. Dengan ditemukannya data yang janggal, kita bisa mengambil tindakan untuk memfilter data tersebut. 

Dalam proses Data Cleansing, biasanya ada beberapa hal yang dilakukan:

  • Menghapus data yang tidak relevan/tidak diperlukan.
  • Membetulkan data yang memiliki struktur tidak sesuai (typo).
  • Mengecek apakah ada missing value pada data.
  • Memastikan semua data yang dibutuhkan tersedia dan rapi.

Dengan adanya data yang bersih tentunya kita akan mendapatkan insight yang maksimal bukan?

Sekarang kita belajar mengenai tahapan Data Cleansing yuk!

2. Standarisasi

Standarisasi dalam konteks pemrograman disini adalah sebagai dasar aturan-aturan yang disepakati bersama oleh programmer sehingga dapat sama-sama dimengerti dan mudah untuk direproduksi. Dengan demikian Standarisasi pun ada berbagai macam, salah satunya adalah standarisasi pada level pengkodean, standarisasi pada level metrik, maupun standarisasi pada level tabel.

Standarisasi data dilakukan untuk menyeragamkan nilai-nilai data yang pada penginputannya formatnya tidak konsisten menggunakan suatu format tertentu, hingga seluruh data menjadi standar. Contoh dari Standarisasi adalah pada format penulisan Jalan, yang sering kali ditulis Jl. atau Jln. juga dapat diimplementasikan pada gelar, dan sebagainya.

Menjaga keseragamanan format nilai data akan sangat membantu memudahkan proses-proses data pada tahap selanjutnya seperti pada saat mencari duplikasi data, analisa data, dan lain-lain.


Contoh Standarisasi - Doc by DQLab


Baca juga : Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science!


3. Missing Value

Missing Value pada data merupakan nilai kosong yang terdapat pada kelompok nilai tersebut. Missing Values dapat diatasi dengan mengisi dari median bila data itu numeric ataupun mengisi Missing Values dari data external atau data enrichment.

Dengan kata lain, Missing Value dapat dikategorikan sebagai data atau informasi yang hilang dari sebuah subjek penelitian. Biasanya missing values terjadi karena datanya memang tidak ada, susah dicari, ataupun terjadi error pada saat data tracking.

Terlihat simple namun missing value ini juga berpotensi besar menimbulkan rendahnya akurasi pengenalan data, contoh kasusnya adalah, jika ada data Slamet Wijaya dengan Alamat Meta Residences, No.32C dan ada data Selamet Wijaya namun data alamatnya kosong, maka menjadi sulit untuk mengenali apakah keduanya adalah orang yang sama atau memang mereka adalah orang yang berbeda.


Conton Missing Value - Doc by DQLab

4. Deduplikasi

Deduplikasi merupakan teknik untuk menghilangkan data yang berulang pada suatu dataset, yang berguna untuk mengefisienkan penyimpanan data maupun memperkecil ukuran data. Deduplikasi merupakan data yang memiliki kemiripan yang tinggi, contoh Deduplikasi adalah jika ada tiga data nama Customer, Hesti Julianty dengan nilai belanja 120.000, Yulianty Hesti dengan nilai belanja 80.000, dan Ani dengan nilai belanja 130.000 terdaftar pada suatu aplikasi, tetapi pada aktualnya kedua Hesti tersebut merupakan satu orang yang sama namun terdaftar pada sistem seakan merupakan dua orang yang berbeda.


Contoh Deduplikasi - Doc by DQLab

Baca juga : [BARU] Belajar Data Analyst Career Track: Fundamental SQL Using SELECT

Bersama DQLab kamu dapat menerapkan langsung proses Data Cleansing menggunakan menggunakan dataset kotor atau mengandung isi data yang tidak standar dan menyerupai kondisi riil permasalahan di industri nyata.

Asah kompetensi mu dengan melakukan teknik data Cleansing berdasarkan kasus dari Standarisasi, Missing Value, dan Deduplikasi untuk lebih memahami proses utama dalam pengolahan data yang sebenarnya. Dengan demikian, kamu akan diasah ketelitian dalam analisa agar lebih kompeten untuk menghadapi dunia data yang sesungguhnya!

Tertarik berkarir di bidang data? Yuk, bergabung di DQLab! Kamu bisa membangun portofolio datamu dengan belajar data science di DQLab. Untuk kamu yang ingin mulai belajar data science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.

Dengan belajar di DQLab, kamu bisa:

  • Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial

  • Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring

  • Bangun portofolio data langsung dari praktisi data Industri

  • Akses Forum DQLab untuk berdiskusi.

Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login