Wrangling Python Skill Wajib Untuk Seorang Data Scientist
Data Wrangling Python merupakan salah satu skill wajib yang harus dimiliki seorang Data Scientist. Selain data wrangling sebenarnya masih banyak skill lainnya yang harus dimiliki oleh seorang Data Scientist. Data wrangling sendiri merupakan suatu proses transformasi dan pemetaan data dari satu "raw" bentuk data ke format lain dengan maksud untuk membuat proses analisa menjadi lebih mudah. Data mentah ini berisikan berbagai tipe data. Untuk itu perlu dilakukan data wrangling dimana data mentah akan diseragamkan tujuannya adalah agar data tersebut lebih mudah dianalisis.
Pada Python terdapat salah satu library yang sering digunakan dalam melakukan proses data wrangling yaitu pandas. Pandas merupakan toolkit yang memiliki kemampuan dalam membaca berbagai macam tipe data dan sering digunakan sebagai analisis data awal hingga pengenalan struktur dataset dalam Python. Pada artikel ini kita akan membahas beberapa hal yang dilakukan oleh data wrangling, simak penjelasan berikut ini!
1. Membaca Data Menggunakan Pandas
Pandas merupakan salah satu alternatif library yang sering digunakan untuk proses data wrangling. Pandas merupakan toolkit yang powerfull sebagai analisis data diawal dan pengenalan struktur dataset dalam Python. Tahapan pertama untuk mengetahui isi data adalah dengan membacanya terlebih dahulu. Pandas memiliki kemampuan untuk membaca berbagai macam jenis file. Format data yang dapat dibaca oleh panda pun beragam seperti .csv, .tsv, .json, .txt, dan lainnya. Setelah file terbaca, pandas mampu merubah file ke dalam bentuk dataframe, hal ini dapat memudahkan untuk mengakses, mengagregasi, dan mengolah data tersebut. Di bawah ini adalah contoh kode untuk membaca dataset.
# import library pandas
import pandas as pd
# menentukan lokasi file, nama file, dan inisialisasi csv
dataset = pd.read_csv("shopping_data.csv")
# menampilkan 5 baris data pertama
print(dataset.head())
Baca juga : Python Array : Memahami Kegunaan Array Dalam Python
�
2. Menampilkan Informasi Dataset
Sebelum melakukan tahap analisis selanjutnya, kita harus mengetahui informasi terkait dengan data tersebut. Pada pandas kita dapat dengan mudah melihat informasi dataset yang kita miliki. Pertama kita dapat menggunakan method .shape untuk melihat ukuran dari dataset yang kita miliki seperti contoh berikut:
dataset.shape
lalu akan menghasilkan output:
(200, 5)
Yang artinya pada dataset tersebut memiliki data sebanyak 200 baris dengan 5 kolom.
Lalu cara yang kedua kita dapat mengetahui apakah dataset kita terdapat missing value atau tidak. Caranya dengan menggunakan fungsi .info() seperti berikut:
dataset.info()
Cara ketiga, kita dapat melakukan Measures of Central Tendency dengan dataset yang kita miliki, caranya adalah dengan menggunakan fungsi .describe seperti berikut:
dataset.describe()
3. Melakukan Akses Data
Pada proses analisis data, terkadang kita hanya membutuhkan beberapa kolom yang dianggap penting dan mempunyai peranan penting dalam proses analisis. Untuk itu kita hanya perlu melakukan akses ke beberapa data saja dan tidak perlu menampilkan semua datanya. Pada pandas, kita dapat melakukan akses ke dalam berbagai kebutuhan seperti mengakses baris atau kolom tertentu. Pandas memiliki attribute .columns untuk melihat nama-nama kolom yang terdapat pada dataset. Contoh penggunaannya adalah seperti berikut:
# Import library pandas
import pandas as pd
# menentukan lokasi file, nama file, dan inisialisasi csv
csv_data = pd.read_csv("shopping_data.csv")
# mencetak nama kolom
print(csv_data.columns)
Selanjutnya misalkan kita hanya ingin menampilkan kolom "Age" untuk melihat umur dari masing-masing customer. Untuk itu kita bisa memasukkan perintah seperti berikut:
print(dataset['Age'])
Baca juga : 3 Metode Numpy Array Python Sebagai Dasar Proses Manipulasi Data
4. Yuk, BELAJAR DATA SCIENCE GRATIS DI DQLAB SELAMA 1 BULAN!
Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:
Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.
Penulis : Salsabila Miftah Rezkia
Editor : Annissa Widya Davita